論文の概要: Your Interest, Your Summaries: Query-Focused Long Video Summarization
- arxiv url: http://arxiv.org/abs/2410.14087v1
- Date: Thu, 17 Oct 2024 23:37:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:25:21.840220
- Title: Your Interest, Your Summaries: Query-Focused Long Video Summarization
- Title(参考訳): あなたの興味は、あなたのサマリ:クエリに焦点をあてたロングビデオ要約
- Authors: Nirav Patel, Payal Prajapati, Maitrik Shah,
- Abstract要約: 本稿では,ユーザクエリとビデオ要約を密接に関連付けることを目的とした,クエリ中心のビデオ要約に対するアプローチを提案する。
本稿では,本課題のために設計された新しいアプローチであるFCSNA-QFVS(FCSNA-QFVS)を提案する。
- 参考スコア(独自算出の注目度): 0.6041235048439966
- License:
- Abstract: Generating a concise and informative video summary from a long video is important, yet subjective due to varying scene importance. Users' ability to specify scene importance through text queries enhances the relevance of such summaries. This paper introduces an approach for query-focused video summarization, aiming to align video summaries closely with user queries. To this end, we propose the Fully Convolutional Sequence Network with Attention (FCSNA-QFVS), a novel approach designed for this task. Leveraging temporal convolutional and attention mechanisms, our model effectively extracts and highlights relevant content based on user-specified queries. Experimental validation on a benchmark dataset for query-focused video summarization demonstrates the effectiveness of our approach.
- Abstract(参考訳): 長いビデオから簡潔で情報に富んだ映像の要約を生成することは重要であるが、シーンの重要性の相違から主観的である。
ユーザによるテキストクエリによるシーン重要度指定能力は,このような要約の関連性を高める。
本稿では,ユーザクエリとビデオ要約を密接に関連付けることを目的とした,クエリ中心のビデオ要約に対するアプローチを提案する。
そこで本研究では,本課題のために設計された新しいアプローチであるFCSNA-QFVS(Fully Convolutional Sequence Network with Attention)を提案する。
時間的畳み込みと注意機構を活用することで,ユーザが特定したクエリに基づいて関連コンテンツを効果的に抽出し,ハイライトする。
クエリ中心のビデオ要約のためのベンチマークデータセットの実験的検証により,提案手法の有効性が示された。
関連論文リスト
- Personalized Video Summarization using Text-Based Queries and Conditional Modeling [3.4447129363520337]
この論文は、テキストベースのクエリと条件付きモデリングを統合することで、ビデオ要約の強化を探求する。
精度やF1スコアなどの評価指標は、生成された要約の品質を評価する。
論文 参考訳(メタデータ) (2024-08-27T02:43:40Z) - GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval [56.610806615527885]
本稿では,テキストとビデオ間の固有情報不均衡に対処するため,新しいデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。
ビデオをショートクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを総合的なシーン記述で強化する。
GQEは、MSR-VTT、MSVD、SMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - Query-based Video Summarization with Pseudo Label Supervision [19.229722872058055]
手動でラベル付けされたクエリベースのビデオ要約のための既存のデータセットは、コストが高くて小さい。
セルフスーパービジョンは、プリテキストタスクを使用して、擬似ラベルで余分なデータを取得する方法を定義することで、データ空間の問題に対処することができる。
実験結果から,提案した映像要約アルゴリズムは最先端の性能を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-04T22:28:17Z) - VideoXum: Cross-modal Visual and Textural Summarization of Videos [54.0985975755278]
我々は新しい共同ビデオとテキスト要約タスクを提案する。
目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。
生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文 参考訳(メタデータ) (2023-03-21T17:51:23Z) - CLIP-It! Language-Guided Video Summarization [96.69415453447166]
この作業では、ジェネリックとクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。
本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。
本モデルは, 地道的な監督を伴わずに, 訓練により教師なしの設定に拡張することができる。
論文 参考訳(メタデータ) (2021-07-01T17:59:27Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z) - Convolutional Hierarchical Attention Network for Query-Focused Video
Summarization [74.48782934264094]
本稿では、ユーザのクエリと長いビデオを入力として取り込む、クエリ中心のビデオ要約の課題に対処する。
本稿では,特徴符号化ネットワークとクエリ関連計算モジュールの2つの部分からなる畳み込み階層型注意ネットワーク(CHAN)を提案する。
符号化ネットワークでは,局所的な自己認識機構と問合せ対応のグローバルアテンション機構を備えた畳み込みネットワークを用いて,各ショットの視覚情報を学習する。
論文 参考訳(メタデータ) (2020-01-31T04:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。