論文の概要: Long Story Short: Story-level Video Understanding from 20K Short Films
- arxiv url: http://arxiv.org/abs/2406.10221v2
- Date: Fri, 10 Jan 2025 10:36:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:25:45.938731
- Title: Long Story Short: Story-level Video Understanding from 20K Short Films
- Title(参考訳): 長編長編:20K短編映画からのストーリーレベルの映像理解
- Authors: Ridouane Ghermi, Xi Wang, Vicky Kalogeiton, Ivan Laptev,
- Abstract要約: 本稿では,公開映画データセットとして最大規模のショートフィルム20K(SF20K)を提案する。
SF20Kは20,143本のアマチュア映画で構成され、複数選択とオープンエンドの質問応答という形で長期的なビデオタスクを提供する。
- 参考スコア(独自算出の注目度): 30.06191555110948
- License:
- Abstract: Recent developments in vision-language models have significantly advanced video understanding. Existing datasets and tasks, however, have notable limitations. Most datasets are confined to short videos with limited events and narrow narratives. For example, datasets with instructional and egocentric videos often depict activities of one person in a single scene. Although existing movie datasets offer richer content, they are often limited to short-term tasks, lack publicly available videos, and frequently encounter data leakage issues given the use of subtitles and other information about commercial movies during LLM pretraining. To address the above limitations, we propose Short-Films 20K (SF20K), the largest publicly available movie dataset. SF20K is composed of 20,143 amateur films and offers long-term video tasks in the form of multiple-choice and open-ended question answering. Our extensive analysis of SF20K reveals minimal data leakage, emphasizes the need for long-term reasoning, and demonstrates the strong performance of recent VLMs. Finally, we show that instruction tuning on the SF20K-Train set substantially improves model performance, paving the way for future progress in long-term video understanding.
- Abstract(参考訳): 近年の視覚言語モデルの発展により、映像理解は大幅に進歩した。
しかし、既存のデータセットとタスクには、注目すべき制限がある。
ほとんどのデータセットは、限られたイベントと狭い物語を持つ短いビデオに限られている。
例えば、インストラクションとエゴセントリックなビデオを持つデータセットは、1つのシーンで1人のアクティビティを描写することが多い。
既存の映画データセットは、よりリッチなコンテンツを提供するが、多くの場合、短期的なタスクに制限され、公開ビデオが欠如し、LLM事前訓練中にサブタイトルやその他の商用映画に関する情報を使用すると、しばしばデータ漏洩問題に遭遇する。
上記の制限に対処するため,公開映画データセットとして最大規模のショートフィルム20K(SF20K)を提案する。
SF20Kは20,143本のアマチュア映画で構成され、複数選択とオープンエンドの質問応答という形で長期的なビデオタスクを提供する。
SF20Kを広範囲に分析した結果,データリークの最小化,長期的推論の必要性,最近のVLMの強力な性能が示された。
最後に,SF20K-Trainセットの命令チューニングによりモデル性能が大幅に向上し,長期ビデオ理解における今後の進歩の道が開かれたことを示す。
関連論文リスト
- HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding [52.696422425058245]
我々は、長時間ビデオ理解モデルを評価するために、大規模な時間長ビデオベンチマークHLV-1Kを構築した。
HLV-1Kは、高品質質問応答(QA)とマルチチョイス質問応答(MCQA)を備えた1009時間ビデオからなる。
我々は,既存の最先端手法を用いてベンチマークを評価し,様々なレベルでの深層ビデオ理解能力をテストすることの価値を実証した。
論文 参考訳(メタデータ) (2025-01-03T05:32:37Z) - Video Repurposing from User Generated Content: A Large-scale Dataset and Benchmark [5.76230561819199]
1万本以上のビデオと12万本以上の注釈付きクリップからなる広範囲なデータセットであるRepurpose-10Kを提案する。
実世界のユーザ生成コンテンツからアノテーションを得るための2段階のソリューションを提案する。
この課題に対処するためのベースラインモデルとして,音声,視覚,キャプションの各側面を統合する。
論文 参考訳(メタデータ) (2024-12-12T02:27:46Z) - MovieBench: A Hierarchical Movie Level Dataset for Long Video Generation [62.85764872989189]
長いビデオ生成モデルの分析、評価、トレーニングに適したデータセットは公開されていない。
The MovieBench: A Hierarchical Movie-Level dataset for Long Video Generation。
データセットは公開され、継続的に維持され、長いビデオ生成の分野を前進させることを目的としている。
論文 参考訳(メタデータ) (2024-11-22T10:25:08Z) - LVBench: An Extreme Long Video Understanding Benchmark [38.839913137854104]
LVBenchは長いビデオの理解に特化して設計されたベンチマークである。
我々のデータセットは、公開されているビデオからなり、長いビデオの理解と情報抽出を目的とした様々なタスクを包含する。
論文 参考訳(メタデータ) (2024-06-12T09:36:52Z) - CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。
包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。
トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。
提案手法は,全タスクの絶対精度を3~6%向上させる。
意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2024-04-05T18:33:04Z) - Long Story Short: a Summarize-then-Search Method for Long Video Question
Answering [23.094728230459125]
言語モデルがマルチメディアコンテンツの長大なマルチモーダル物語にゼロショット推論能力を拡張できるかどうかを検討する。
本稿では,まずビデオの物語を短いプロットに要約し,質問に関連するビデオの一部を検索する,物語ビデオQAのためのフレームワークであるLong Story Shortを提案する。
我々のモデルは最先端の教師付きモデルよりも大きなマージンで優れており、ロングビデオにおけるゼロショットQAの可能性を強調している。
論文 参考訳(メタデータ) (2023-11-02T13:36:11Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - MAD: A Scalable Dataset for Language Grounding in Videos from Movie
Audio Descriptions [109.84031235538002]
我々は、既存のビデオデータセットをテキストアノテーションで拡張するパラダイムから外れた、新しいベンチマークであるMAD(Movie Audio Descriptions)を提示する。
MADには1200時間以上のビデオに接地された384,000以上の自然言語文が含まれており、現在診断されているビデオ言語接地データセットのバイアスが大幅に減少している。
論文 参考訳(メタデータ) (2021-12-01T11:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。