論文の概要: A Video is Worth 10,000 Words: Training and Benchmarking with Diverse
Captions for Better Long Video Retrieval
- arxiv url: http://arxiv.org/abs/2312.00115v1
- Date: Thu, 30 Nov 2023 18:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 16:50:02.618647
- Title: A Video is Worth 10,000 Words: Training and Benchmarking with Diverse
Captions for Better Long Video Retrieval
- Title(参考訳): ビデオは1万語の価値がある: さまざまなキャプションによる、長いビデオ検索のための訓練とベンチマーク
- Authors: Matthew Gwilliam and Michael Cogswell and Meng Ye and Karan Sikka and
Abhinav Shrivastava and Ajay Divakaran
- Abstract要約: 既存の長いビデオ検索システムは、段落から段落までの検索システムで訓練され、テストされる。
これは、ビデオのリッチさと多種多様な有効な記述を無視している。
本稿では,最先端の大規模言語モデルを利用して,多種多様な合成キャプションを注意深く生成するパイプラインを提案する。
- 参考スコア(独自算出の注目度): 43.58794386905177
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing long video retrieval systems are trained and tested in the
paragraph-to-video retrieval regime, where every long video is described by a
single long paragraph. This neglects the richness and variety of possible valid
descriptions of a video, which could be described in moment-by-moment detail,
or in a single phrase summary, or anything in between. To provide a more
thorough evaluation of the capabilities of long video retrieval systems, we
propose a pipeline that leverages state-of-the-art large language models to
carefully generate a diverse set of synthetic captions for long videos. We
validate this pipeline's fidelity via rigorous human inspection. We then
benchmark a representative set of video language models on these synthetic
captions using a few long video datasets, showing that they struggle with the
transformed data, especially the shortest captions. We also propose a
lightweight fine-tuning method, where we use a contrastive loss to learn a
hierarchical embedding loss based on the differing levels of information among
the various captions. Our method improves performance both on the downstream
paragraph-to-video retrieval task (+1.1% R@1 on ActivityNet), as well as for
the various long video retrieval metrics we compute using our synthetic data
(+3.6% R@1 for short descriptions on ActivityNet). For data access and other
details, please refer to our project website at
https://mgwillia.github.io/10k-words.
- Abstract(参考訳): 既存の長ビデオ検索システムは、一段落の長ビデオを記述した段落から段落までの検索システムで訓練・テストされる。
これは、動画の豊かさと多種多様さを無視するものであり、モーメントごとの細部や、一つのフレーズの要約、あるいはその間にあるあらゆる内容で説明できる。
長ビデオ検索システムの機能をより徹底的に評価するために,最先端の大規模言語モデルを活用して,多種多様な合成キャプションを注意深く生成するパイプラインを提案する。
厳密な人間の検査を通して このパイプラインの忠実性を検証する
次に、いくつかのビデオデータセットを用いて、これらの合成キャプションに代表されるビデオ言語モデルをベンチマークし、変換されたデータ、特に最短キャプションに苦しむことを示す。
また,各キャプション間の情報レベルの違いに基づいて,コントラスト損失を用いて階層的な埋め込み損失を学習する,軽量な微調整手法を提案する。
提案手法は,下段落からビデオへの検索タスク(activitynet上では+1.1% r@1)と,合成データを用いて計算する様々な長大映像検索メトリクス(activitynet の短い記述では+3.6% r@1)の両方で性能を向上させる。
データアクセスやその他の詳細については、プロジェクトのwebサイトhttps://mgwillia.github.io/10k-wordsを参照してください。
関連論文リスト
- Reversed in Time: A Novel Temporal-Emphasized Benchmark for Cross-Modal Video-Text Retrieval [56.05621657583251]
クロスモーダル検索(例えば、画像テキスト、ビデオテキスト)は、情報検索およびマルチモーダル視覚言語理解分野において重要なタスクである。
本稿では,新しい時間強調ビデオテキスト検索データセットRTimeを紹介する。
私たちのRTimeデータセットは、現在1ビデオにつき10キャプションの21Kビデオで構成されており、合計で約122時間です。
論文 参考訳(メタデータ) (2024-12-26T11:32:00Z) - Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - CBVS: A Large-Scale Chinese Image-Text Benchmark for Real-World Short
Video Search Scenarios [15.058793892803008]
大規模画像テキストデータセットで事前訓練された視覚言語モデルは、画像検索などの下流タスクにおいて優れた性能を示している。
われわれは,中国のショートビデオ検索シナリオを対象とした,最初の大規模カバレッジ・テキスト・ベンチマークを構築した。
UniCLIPはTencentのオンラインビデオ検索システムに数億回の訪問で展開され、大きな成功を収めている。
論文 参考訳(メタデータ) (2024-01-19T03:54:58Z) - DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。
データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文 参考訳(メタデータ) (2023-10-08T08:02:43Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z) - Text Synopsis Generation for Egocentric Videos [72.52130695707008]
我々は、長い自我中心の動画の中で最も重要な出来事を記述したいくつかの文からなるテキスト合成を生成することを提案する。
ユーザーは短いテキストを読んでビデオについての洞察を得ることができ、さらに重要なのは、大きなビデオデータベースのコンテンツを効率的に検索できることだ。
論文 参考訳(メタデータ) (2020-05-08T00:28:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。