Fugu-MT 論文翻訳(概要): A Video is Worth 10,000 Words: Training and Benchmarking with Diverse Captions for Better Long Video Retrieval

論文の概要: A Video is Worth 10,000 Words: Training and Benchmarking with Diverse Captions for Better Long Video Retrieval

arxiv url: http://arxiv.org/abs/2312.00115v2
Date: Mon, 09 Dec 2024 23:46:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-11 22:09:44.888069
Title: A Video is Worth 10,000 Words: Training and Benchmarking with Diverse Captions for Better Long Video Retrieval
Title（参考訳）: ビデオは1万ワードの価値がある: 長いビデオ検索のために、さまざまなキャプションでトレーニングとベンチマークを行う
Authors: Matthew Gwilliam, Michael Cogswell, Meng Ye, Karan Sikka, Abhinav Shrivastava, Ajay Divakaran,
Abstract要約: 既存の長いビデオ検索システムは、段落から段落までの検索システムで訓練され、テストされる。これは、動画の豊かさと多種多様さを無視するものであり、モーメントごとの細部から単一のフレーズの要約まで幅広い範囲に及んでいる。本稿では,最先端の大規模言語モデルを利用して,多種多様な合成キャプションを注意深く生成するパイプラインを提案する。
参考スコア（独自算出の注目度）: 41.13561065438316
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Existing long video retrieval systems are trained and tested in the paragraph-to-video retrieval regime, where every long video is described by a single long paragraph. This neglects the richness and variety of possible valid descriptions of a video, which could range anywhere from moment-by-moment detail to a single phrase summary. To provide a more thorough evaluation of the capabilities of long video retrieval systems, we propose a pipeline that leverages state-of-the-art large language models to carefully generate a diverse set of synthetic captions for long videos. We validate this pipeline's fidelity via rigorous human inspection. We use synthetic captions from this pipeline to perform a benchmark of a representative set of video language models using long video datasets, and show that the models struggle on shorter captions. We show that finetuning on this data can both mitigate these issues (+2.8% R@1 over SOTA on ActivityNet with diverse captions), and even improve performance on standard paragraph-to-video retrieval (+1.0% R@1 on ActivityNet). We also use synthetic data from our pipeline as query expansion in the zero-shot setting (+3.4% R@1 on ActivityNet). We derive insights by analyzing failure cases for retrieval with short captions. For data access and other details, please refer to our project website at https://mgwillia.github.io/10k-words.
Abstract（参考訳）: 既存の長ビデオ検索システムは、一段落の長ビデオを記述した段落から段落までの検索システムで訓練・テストされる。これは、動画の豊かさと多種多様さを無視するものであり、モーメントごとの細部から単一のフレーズの要約まで幅広い範囲に及んでいる。長ビデオ検索システムの機能をより徹底的に評価するために,最先端の大規模言語モデルを活用して,多種多様な合成キャプションを注意深く生成するパイプラインを提案する。我々はこのパイプラインの忠実さを厳密な人間の検査によって検証する。我々は,このパイプラインから合成キャプションを用いて,長大なビデオデータセットを用いたビデオ言語モデルの代表セットのベンチマークを行い,短いキャプションでモデルが苦労していることを示す。このデータによる微調整は,これらの問題を緩和し(多彩なキャプションを持つActivityNet上でSOTAで+2.8% R@1),また,標準段落検索(ActivityNetで+1.0% R@1)の性能向上を図っている。また、ゼロショット設定(ActivityNetでは+3.4% R@1)でのクエリ拡張として、パイプラインからの合成データも使用しています。短いキャプションで検索する際の障害事例を分析して洞察を得る。データアクセスやその他の詳細については、プロジェクトのWebサイトhttps://mgwillia.github.io/10k-wordsを参照してください。

関連論文リスト

CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval [24.203328970223527]
本稿では,詳細な動画キャプションと検索のためのベンチマークであるCaReBenchを紹介する。同様に、ビデオごとに手動で分離された空間アノテーションと時間アノテーションを提供する。この設計に基づいて、ビデオ検索とビデオキャプションタスクに特化して、ReBiasとCapSTという2つの評価指標を導入する。
論文参考訳（メタデータ） (2024-12-31T15:53:50Z)
Reversed in Time: A Novel Temporal-Emphasized Benchmark for Cross-Modal Video-Text Retrieval [56.05621657583251]
クロスモーダル検索(例えば、画像テキスト、ビデオテキスト)は、情報検索およびマルチモーダル視覚言語理解分野において重要なタスクである。本稿では,新しい時間強調ビデオテキスト検索データセットRTimeを紹介する。私たちのRTimeデータセットは、現在1ビデオにつき10キャプションの21Kビデオで構成されており、合計で約122時間です。
論文参考訳（メタデータ） (2024-12-26T11:32:00Z)
Whats in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning [71.94122309290537]
ビデオの高密度キャプションを生成するための,効率的なオンライン手法を提案する。我々のモデルは、新しい自己回帰因子化復号化アーキテクチャを使用している。提案手法は,オフライン手法とオンライン手法の両方と比較して優れた性能を示し,計算コストを20%削減する。
論文参考訳（メタデータ） (2024-11-22T02:46:44Z)
Personalized Video Summarization by Multimodal Video Understanding [2.1372652192505703]
本稿では,ビデオ要約のためのVSL (Video Summarization with Language) というパイプラインを提案する。 VSLは、トレーニング済みのビジュアル言語モデル(VLM)に基づいて、大規模なトレーニングデータセット上でビデオ要約システムをトレーニングする必要がない。提案手法は,教師付きクエリに基づくビデオ要約モデルと比較して,異なるデータセットに対してより適応可能であることを示す。
論文参考訳（メタデータ） (2024-11-05T22:14:35Z)
Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。 Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文参考訳（メタデータ） (2024-06-10T06:17:55Z)
CBVS: A Large-Scale Chinese Image-Text Benchmark for Real-World Short Video Search Scenarios [15.058793892803008]
大規模画像テキストデータセットで事前訓練された視覚言語モデルは、画像検索などの下流タスクにおいて優れた性能を示している。われわれは,中国のショートビデオ検索シナリオを対象とした,最初の大規模カバレッジ・テキスト・ベンチマークを構築した。 UniCLIPはTencentのオンラインビデオ検索システムに数億回の訪問で展開され、大きな成功を収めている。
論文参考訳（メタデータ） (2024-01-19T03:54:58Z)
DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文参考訳（メタデータ） (2023-10-08T08:02:43Z)
HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文参考訳（メタデータ） (2023-10-07T19:32:55Z)
HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文参考訳（メタデータ） (2023-01-05T21:53:19Z)
QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。 YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文参考訳（メタデータ） (2020-11-22T17:33:44Z)
Text Synopsis Generation for Egocentric Videos [72.52130695707008]
我々は、長い自我中心の動画の中で最も重要な出来事を記述したいくつかの文からなるテキスト合成を生成することを提案する。ユーザーは短いテキストを読んでビデオについての洞察を得ることができ、さらに重要なのは、大きなビデオデータベースのコンテンツを効率的に検索できることだ。
論文参考訳（メタデータ） (2020-05-08T00:28:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。