論文の概要: A Video is Worth 10,000 Words: Training and Benchmarking with Diverse
Captions for Better Long Video Retrieval
- arxiv url: http://arxiv.org/abs/2312.00115v1
- Date: Thu, 30 Nov 2023 18:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 16:50:02.618647
- Title: A Video is Worth 10,000 Words: Training and Benchmarking with Diverse
Captions for Better Long Video Retrieval
- Title(参考訳): ビデオは1万語の価値がある: さまざまなキャプションによる、長いビデオ検索のための訓練とベンチマーク
- Authors: Matthew Gwilliam and Michael Cogswell and Meng Ye and Karan Sikka and
Abhinav Shrivastava and Ajay Divakaran
- Abstract要約: 既存の長いビデオ検索システムは、段落から段落までの検索システムで訓練され、テストされる。
これは、ビデオのリッチさと多種多様な有効な記述を無視している。
本稿では,最先端の大規模言語モデルを利用して,多種多様な合成キャプションを注意深く生成するパイプラインを提案する。
- 参考スコア(独自算出の注目度): 43.58794386905177
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing long video retrieval systems are trained and tested in the
paragraph-to-video retrieval regime, where every long video is described by a
single long paragraph. This neglects the richness and variety of possible valid
descriptions of a video, which could be described in moment-by-moment detail,
or in a single phrase summary, or anything in between. To provide a more
thorough evaluation of the capabilities of long video retrieval systems, we
propose a pipeline that leverages state-of-the-art large language models to
carefully generate a diverse set of synthetic captions for long videos. We
validate this pipeline's fidelity via rigorous human inspection. We then
benchmark a representative set of video language models on these synthetic
captions using a few long video datasets, showing that they struggle with the
transformed data, especially the shortest captions. We also propose a
lightweight fine-tuning method, where we use a contrastive loss to learn a
hierarchical embedding loss based on the differing levels of information among
the various captions. Our method improves performance both on the downstream
paragraph-to-video retrieval task (+1.1% R@1 on ActivityNet), as well as for
the various long video retrieval metrics we compute using our synthetic data
(+3.6% R@1 for short descriptions on ActivityNet). For data access and other
details, please refer to our project website at
https://mgwillia.github.io/10k-words.
- Abstract(参考訳): 既存の長ビデオ検索システムは、一段落の長ビデオを記述した段落から段落までの検索システムで訓練・テストされる。
これは、動画の豊かさと多種多様さを無視するものであり、モーメントごとの細部や、一つのフレーズの要約、あるいはその間にあるあらゆる内容で説明できる。
長ビデオ検索システムの機能をより徹底的に評価するために,最先端の大規模言語モデルを活用して,多種多様な合成キャプションを注意深く生成するパイプラインを提案する。
厳密な人間の検査を通して このパイプラインの忠実性を検証する
次に、いくつかのビデオデータセットを用いて、これらの合成キャプションに代表されるビデオ言語モデルをベンチマークし、変換されたデータ、特に最短キャプションに苦しむことを示す。
また,各キャプション間の情報レベルの違いに基づいて,コントラスト損失を用いて階層的な埋め込み損失を学習する,軽量な微調整手法を提案する。
提案手法は,下段落からビデオへの検索タスク(activitynet上では+1.1% r@1)と,合成データを用いて計算する様々な長大映像検索メトリクス(activitynet の短い記述では+3.6% r@1)の両方で性能を向上させる。
データアクセスやその他の詳細については、プロジェクトのwebサイトhttps://mgwillia.github.io/10k-wordsを参照してください。
関連論文リスト
- Whats in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning [71.94122309290537]
ビデオの高密度キャプションを生成するための,効率的なオンライン手法を提案する。
我々のモデルは、新しい自己回帰因子化復号化アーキテクチャを使用している。
提案手法は,オフライン手法とオンライン手法の両方と比較して優れた性能を示し,計算コストを20%削減する。
論文 参考訳(メタデータ) (2024-11-22T02:46:44Z) - Personalized Video Summarization by Multimodal Video Understanding [2.1372652192505703]
本稿では,ビデオ要約のためのVSL (Video Summarization with Language) というパイプラインを提案する。
VSLは、トレーニング済みのビジュアル言語モデル(VLM)に基づいて、大規模なトレーニングデータセット上でビデオ要約システムをトレーニングする必要がない。
提案手法は,教師付きクエリに基づくビデオ要約モデルと比較して,異なるデータセットに対してより適応可能であることを示す。
論文 参考訳(メタデータ) (2024-11-05T22:14:35Z) - Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - Text Synopsis Generation for Egocentric Videos [72.52130695707008]
我々は、長い自我中心の動画の中で最も重要な出来事を記述したいくつかの文からなるテキスト合成を生成することを提案する。
ユーザーは短いテキストを読んでビデオについての洞察を得ることができ、さらに重要なのは、大きなビデオデータベースのコンテンツを効率的に検索できることだ。
論文 参考訳(メタデータ) (2020-05-08T00:28:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。