論文の概要: A Video is Worth 10,000 Words: Training and Benchmarking with Diverse Captions for Better Long Video Retrieval
- arxiv url: http://arxiv.org/abs/2312.00115v2
- Date: Mon, 09 Dec 2024 23:46:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:34:47.321987
- Title: A Video is Worth 10,000 Words: Training and Benchmarking with Diverse Captions for Better Long Video Retrieval
- Title(参考訳): ビデオは1万ワードの価値がある: 長いビデオ検索のために、さまざまなキャプションでトレーニングとベンチマークを行う
- Authors: Matthew Gwilliam, Michael Cogswell, Meng Ye, Karan Sikka, Abhinav Shrivastava, Ajay Divakaran,
- Abstract要約: 既存の長いビデオ検索システムは、段落から段落までの検索システムで訓練され、テストされる。
これは、動画の豊かさと多種多様さを無視するものであり、モーメントごとの細部から単一のフレーズの要約まで幅広い範囲に及んでいる。
本稿では,最先端の大規模言語モデルを利用して,多種多様な合成キャプションを注意深く生成するパイプラインを提案する。
- 参考スコア(独自算出の注目度): 41.13561065438316
- License:
- Abstract: Existing long video retrieval systems are trained and tested in the paragraph-to-video retrieval regime, where every long video is described by a single long paragraph. This neglects the richness and variety of possible valid descriptions of a video, which could range anywhere from moment-by-moment detail to a single phrase summary. To provide a more thorough evaluation of the capabilities of long video retrieval systems, we propose a pipeline that leverages state-of-the-art large language models to carefully generate a diverse set of synthetic captions for long videos. We validate this pipeline's fidelity via rigorous human inspection. We use synthetic captions from this pipeline to perform a benchmark of a representative set of video language models using long video datasets, and show that the models struggle on shorter captions. We show that finetuning on this data can both mitigate these issues (+2.8% R@1 over SOTA on ActivityNet with diverse captions), and even improve performance on standard paragraph-to-video retrieval (+1.0% R@1 on ActivityNet). We also use synthetic data from our pipeline as query expansion in the zero-shot setting (+3.4% R@1 on ActivityNet). We derive insights by analyzing failure cases for retrieval with short captions. For data access and other details, please refer to our project website at https://mgwillia.github.io/10k-words.
- Abstract(参考訳): 既存の長ビデオ検索システムは、一段落の長ビデオを記述した段落から段落までの検索システムで訓練・テストされる。
これは、動画の豊かさと多種多様さを無視するものであり、モーメントごとの細部から単一のフレーズの要約まで幅広い範囲に及んでいる。
長ビデオ検索システムの機能をより徹底的に評価するために,最先端の大規模言語モデルを活用して,多種多様な合成キャプションを注意深く生成するパイプラインを提案する。
我々はこのパイプラインの忠実さを厳密な人間の検査によって検証する。
我々は,このパイプラインから合成キャプションを用いて,長大なビデオデータセットを用いたビデオ言語モデルの代表セットのベンチマークを行い,短いキャプションでモデルが苦労していることを示す。
このデータによる微調整は,これらの問題を緩和し(多彩なキャプションを持つActivityNet上でSOTAで+2.8% R@1),また,標準段落検索(ActivityNetで+1.0% R@1)の性能向上を図っている。
また、ゼロショット設定(ActivityNetでは+3.4% R@1)でのクエリ拡張として、パイプラインからの合成データも使用しています。
短いキャプションで検索する際の障害事例を分析して洞察を得る。
データアクセスやその他の詳細については、プロジェクトのWebサイトhttps://mgwillia.github.io/10k-wordsを参照してください。
関連論文リスト
- Reversed in Time: A Novel Temporal-Emphasized Benchmark for Cross-Modal Video-Text Retrieval [56.05621657583251]
クロスモーダル検索(例えば、画像テキスト、ビデオテキスト)は、情報検索およびマルチモーダル視覚言語理解分野において重要なタスクである。
本稿では,新しい時間強調ビデオテキスト検索データセットRTimeを紹介する。
私たちのRTimeデータセットは、現在1ビデオにつき10キャプションの21Kビデオで構成されており、合計で約122時間です。
論文 参考訳(メタデータ) (2024-12-26T11:32:00Z) - Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - CBVS: A Large-Scale Chinese Image-Text Benchmark for Real-World Short
Video Search Scenarios [15.058793892803008]
大規模画像テキストデータセットで事前訓練された視覚言語モデルは、画像検索などの下流タスクにおいて優れた性能を示している。
われわれは,中国のショートビデオ検索シナリオを対象とした,最初の大規模カバレッジ・テキスト・ベンチマークを構築した。
UniCLIPはTencentのオンラインビデオ検索システムに数億回の訪問で展開され、大きな成功を収めている。
論文 参考訳(メタデータ) (2024-01-19T03:54:58Z) - DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。
データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文 参考訳(メタデータ) (2023-10-08T08:02:43Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z) - Text Synopsis Generation for Egocentric Videos [72.52130695707008]
我々は、長い自我中心の動画の中で最も重要な出来事を記述したいくつかの文からなるテキスト合成を生成することを提案する。
ユーザーは短いテキストを読んでビデオについての洞察を得ることができ、さらに重要なのは、大きなビデオデータベースのコンテンツを効率的に検索できることだ。
論文 参考訳(メタデータ) (2020-05-08T00:28:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。