論文の概要: Short Film Dataset (SFD): A Benchmark for Story-Level Video Understanding
- arxiv url: http://arxiv.org/abs/2406.10221v1
- Date: Fri, 14 Jun 2024 17:54:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 12:27:23.244603
- Title: Short Film Dataset (SFD): A Benchmark for Story-Level Video Understanding
- Title(参考訳): Short Film Dataset (SFD):ストーリーレベルのビデオ理解のためのベンチマーク
- Authors: Ridouane Ghermi, Xi Wang, Vicky Kalogeiton, Ivan Laptev,
- Abstract要約: 本研究では,1078本のアマチュア映画を公開するショートフィルムデータセットを提案する。
本実験は,SFD課題を解決するための長期的推論の必要性を強調した。
視覚データのみを使用する場合と比較して、現在のモデルの性能は大幅に低下する。
- 参考スコア(独自算出の注目度): 30.06191555110948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in vision-language models have significantly propelled video understanding. Existing datasets and tasks, however, have notable limitations. Most datasets are confined to short videos with limited events and narrow narratives. For example, datasets with instructional and egocentric videos often document the activities of one person in a single scene. Although some movie datasets offer richer content, they are often limited to short-term tasks, lack publicly available videos and frequently encounter data leakage given the use of movie forums and other resources in LLM training. To address the above limitations, we propose the Short Film Dataset (SFD) with 1,078 publicly available amateur movies, a wide variety of genres and minimal data leakage issues. SFD offers long-term story-oriented video tasks in the form of multiple-choice and open-ended question answering. Our extensive experiments emphasize the need for long-term reasoning to solve SFD tasks. Notably, we find strong signals in movie transcripts leading to the on-par performance of people and LLMs. We also show significantly lower performance of current models compared to people when using vision data alone.
- Abstract(参考訳): 近年の視覚言語モデルの進歩は映像理解を著しく促進している。
しかし、既存のデータセットとタスクには、注目すべき制限がある。
ほとんどのデータセットは、限られたイベントと狭い物語を持つ短いビデオに限られている。
例えば、インストラクションとエゴセントリックなビデオを持つデータセットは、1つのシーンで1人のアクティビティを文書化することが多い。
一部の映画データセットは、よりリッチなコンテンツを提供するが、しばしば短期的なタスクに制限され、公開ビデオが欠如し、映画フォーラムやその他のLLMトレーニングのリソースを使用すると、しばしばデータ漏洩に遭遇する。
上記の制限に対処するため,1078本のアマチュア映画が公開されているショートフィルムデータセット (SFD) を提案する。
SFDは、複数選択とオープンな質問応答という形で、長期的なストーリー指向のビデオタスクを提供する。
本研究では,SFD課題を解決するための長期的推論の必要性を強調した。
特に,映画本文中の強い信号は,人やLLMのオンパーパフォーマンスに繋がる。
また、視覚データのみを使用する場合と比較して、現在のモデルの性能は大幅に低下する。
関連論文リスト
- HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding [52.696422425058245]
我々は、長時間ビデオ理解モデルを評価するために、大規模な時間長ビデオベンチマークHLV-1Kを構築した。
HLV-1Kは、高品質質問応答(QA)とマルチチョイス質問応答(MCQA)を備えた1009時間ビデオからなる。
我々は,既存の最先端手法を用いてベンチマークを評価し,様々なレベルでの深層ビデオ理解能力をテストすることの価値を実証した。
論文 参考訳(メタデータ) (2025-01-03T05:32:37Z) - Video Repurposing from User Generated Content: A Large-scale Dataset and Benchmark [5.76230561819199]
1万本以上のビデオと12万本以上の注釈付きクリップからなる広範囲なデータセットであるRepurpose-10Kを提案する。
実世界のユーザ生成コンテンツからアノテーションを得るための2段階のソリューションを提案する。
この課題に対処するためのベースラインモデルとして,音声,視覚,キャプションの各側面を統合する。
論文 参考訳(メタデータ) (2024-12-12T02:27:46Z) - MovieBench: A Hierarchical Movie Level Dataset for Long Video Generation [62.85764872989189]
長いビデオ生成モデルの分析、評価、トレーニングに適したデータセットは公開されていない。
The MovieBench: A Hierarchical Movie-Level dataset for Long Video Generation。
データセットは公開され、継続的に維持され、長いビデオ生成の分野を前進させることを目的としている。
論文 参考訳(メタデータ) (2024-11-22T10:25:08Z) - LVBench: An Extreme Long Video Understanding Benchmark [38.839913137854104]
LVBenchは長いビデオの理解に特化して設計されたベンチマークである。
我々のデータセットは、公開されているビデオからなり、長いビデオの理解と情報抽出を目的とした様々なタスクを包含する。
論文 参考訳(メタデータ) (2024-06-12T09:36:52Z) - CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。
包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。
トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。
提案手法は,全タスクの絶対精度を3~6%向上させる。
意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2024-04-05T18:33:04Z) - Long Story Short: a Summarize-then-Search Method for Long Video Question
Answering [23.094728230459125]
言語モデルがマルチメディアコンテンツの長大なマルチモーダル物語にゼロショット推論能力を拡張できるかどうかを検討する。
本稿では,まずビデオの物語を短いプロットに要約し,質問に関連するビデオの一部を検索する,物語ビデオQAのためのフレームワークであるLong Story Shortを提案する。
我々のモデルは最先端の教師付きモデルよりも大きなマージンで優れており、ロングビデオにおけるゼロショットQAの可能性を強調している。
論文 参考訳(メタデータ) (2023-11-02T13:36:11Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - MAD: A Scalable Dataset for Language Grounding in Videos from Movie
Audio Descriptions [109.84031235538002]
我々は、既存のビデオデータセットをテキストアノテーションで拡張するパラダイムから外れた、新しいベンチマークであるMAD(Movie Audio Descriptions)を提示する。
MADには1200時間以上のビデオに接地された384,000以上の自然言語文が含まれており、現在診断されているビデオ言語接地データセットのバイアスが大幅に減少している。
論文 参考訳(メタデータ) (2021-12-01T11:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。