論文の概要: InfiniBench: A Benchmark for Large Multi-Modal Models in Long-Form Movies and TV Shows
- arxiv url: http://arxiv.org/abs/2406.19875v3
- Date: Sat, 09 Aug 2025 14:01:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.049506
- Title: InfiniBench: A Benchmark for Large Multi-Modal Models in Long-Form Movies and TV Shows
- Title(参考訳): InfiniBench:ロングフォーム映画やテレビ番組における大規模マルチモーダルモデルのベンチマーク
- Authors: Kirolos Ataallah, Eslam Abdelrahman, Mahmoud Ahmed, Chenhui Gou, Khushbu Pahwa, Jian Ding, Mohamed Elhoseiny,
- Abstract要約: InfiniBenchは、長いビデオ理解におけるモデルの能力を評価するために設計されたベンチマークである。
1000時間以上のビデオコンテンツがあり、平均的なビデオの長さは53分である。
グラウンドングベース(シーン遷移、キャラクターアクションなど)と推論ベース(ディープコンテキスト理解、マルチイベントリンクなど)にまたがる8つの多様なスキル
- 参考スコア(独自算出の注目度): 29.65989192467982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding long-form videos, such as movies and TV episodes ranging from tens of minutes to two hours, remains a significant challenge for multi-modal models. Existing benchmarks often fail to test the full range of cognitive skills needed to process these temporally rich and narratively complex inputs. Therefore, we introduce InfiniBench, a comprehensive benchmark designed to evaluate the capabilities of models in long video understanding rigorously. InfiniBench offers:(1) Over 1,000 hours of video content, with an average video length of 53 minutes. (2) The largest set of question-answer pairs for long video comprehension, totaling around 91 K. (3) Eight diverse skills that span both grounding-based (e.g., scene transitions, character actions) and reasoning-based (e.g., deep context understanding, multi-event linking). (4) Rich annotation formats, including both multiple-choice and open-ended questions. We conducted an in-depth evaluation across both commercial (GPT-4o, Gemini 2.0 Flash) and most recent open-source vision-language models such as Qwen2.5-VL, InternVL3.0). Results reveal that:(1) Models struggle across the board: Even the best model, GPT-4o, achieves only 47.1 % on grounding-based skills, with most models performing near or just above random chance. (2) Strong reliance on world knowledge: Models achieve surprisingly high scores using only metadata (e.g., video titles), highlighting a tendency to rely on pre-trained knowledge rather than actual visual or temporal understanding. (3) Multi-Modal Importance: When provided with full video and subtitle context, however, models show substantial improvements, confirming the critical role of multimodal input in video understanding. InfiniBench is publicly available at https://vision-cair.github.io/Infinibench
- Abstract(参考訳): 映画やテレビドラマなどの長編ビデオの理解は、数分間から2時間に及ぶが、マルチモーダルモデルにとって重要な課題である。
既存のベンチマークは、これらの時間的に豊かで物語的に複雑な入力を処理するために必要な認知スキルの全範囲をテストするのに失敗することが多い。
そこで,InfiniBenchを提案する。これは長いビデオ理解において,モデルの有効性を厳格に評価するための包括的なベンチマークである。
InfiniBenchは、(1)1000時間以上のビデオコンテンツを提供し、平均的なビデオの長さは53分である。
2) 長大映像理解のための質問・回答対の最大セットは, 91K前後 (3) グラウンドングベース(シーン遷移, キャラクタ動作)と推論ベース(ディープコンテキスト理解, マルチイベントリンク)にまたがる8つの多様なスキルである。
(4) 複数選択とオープンエンドの質問を含むリッチなアノテーション形式。
我々は、商用(GPT-4o、Gemini 2.0 Flash)および最新のオープンソースビジョン言語モデルであるQwen2.5-VL、InternVL3.0の両方で、詳細な評価を行った。
1) 最良モデルであるGPT-4oでさえ、グラウンドベーススキルで47.1%しか達成できず、ほとんどのモデルがランダムな確率以上で実行されています。
2)世界知識への強い依存: モデルはメタデータ(ビデオタイトルなど)のみを用いて驚くほど高いスコアを達成し,実際の視覚的・時間的理解よりも事前学習した知識に頼る傾向を強調した。
(3) マルチモーダル重要度: フルビデオとサブタイトルコンテキストを提供する場合, モデルは大幅に改善され, 映像理解におけるマルチモーダル入力の重要性が確認された。
InfiniBenchはhttps://vision-cair.github.io/Infinibenchで公開されている。
関連論文リスト
- VideoChat-A1: Thinking with Long Videos by Chain-of-Shot Reasoning [40.071064407275564]
VideoChat-A1は、新しい長編ビデオエージェントパラダイムである。
長いビデオでは、明確な連鎖推論パラダイムを通じて深く考えることができる。
ショットチェーンに沿ったマルチモーダル推論によって、VideoChat-A1はステップバイステップの人間の思考プロセスを効果的に模倣することができる。
論文 参考訳(メタデータ) (2025-06-06T13:58:31Z) - Unleashing Hour-Scale Video Training for Long Video-Language Understanding [61.717205915329664]
本稿では,大規模な時間長ビデオインストラクション追従データセットであるVideoMarathonを紹介する。
このデータセットには、ビデオあたり3分から60分に及ぶ、さまざまなドメインからソースされた9,700時間の長いビデオが含まれている。
時間スケールビデオ言語モデリングのための高効率ビデオLMMであるHour-LLaVAを提案する。
論文 参考訳(メタデータ) (2025-06-05T17:59:04Z) - Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning? [56.06537213958482]
本稿では,MLLMの複雑なビデオ推論能力を評価するためのベンチマークであるVideo-Holmesを紹介する。
Video-Holmesは270本の手動注釈付きサスペンス短編映画から1,837の質問で構成されている。
最新のMLLMを包括的に評価した結果,これらのモデルは視覚的知覚に優れるが,情報の統合にはかなりの困難が伴うことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-27T16:05:01Z) - SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models [80.3895950009792]
ビデオにおけるきめ細かい時間的理解の獲得は、現在のビデオ大マルチモデル(ビデオLMM)にとって大きな課題である。
私たちは、データセット、モデル、ベンチマークの3つの中核的な側面に貢献しています。
まず,ビデオ理解,グラウンドニング,マルチターンビデオチャットの共用学習を実現するため、15Kビデオからなる大規模データセットであるSAMA-239Kを紹介する。
第2に,広義の時間的コンテキストアグリゲータとセグメンションモデルを組み合わせたSAMAモデルを提案する。
論文 参考訳(メタデータ) (2025-05-24T18:13:16Z) - HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding [52.696422425058245]
我々は、長時間ビデオ理解モデルを評価するために、大規模な時間長ビデオベンチマークHLV-1Kを構築した。
HLV-1Kは、高品質質問応答(QA)とマルチチョイス質問応答(MCQA)を備えた1009時間ビデオからなる。
我々は,既存の最先端手法を用いてベンチマークを評価し,様々なレベルでの深層ビデオ理解能力をテストすることの価値を実証した。
論文 参考訳(メタデータ) (2025-01-03T05:32:37Z) - CG-Bench: Clue-grounded Question Answering Benchmark for Long Video Understanding [43.858197893052115]
CG-Benchは、長いビデオのヒント付き質問応答のための新しいベンチマークである。
14の一次カテゴリ、171の二次カテゴリ、638の第三カテゴリからなる粒度のシステムで、1,219の動画を手作業でキュレートする。
このベンチマークには、知覚、推論、幻覚という3つの主要な質問タイプに12,129のQAペアが含まれている。
論文 参考訳(メタデータ) (2024-12-16T18:46:45Z) - HourVideo: 1-Hour Video-Language Understanding [34.90495038962066]
HourVideoは、時間単位のビデオ言語理解のためのベンチマークデータセットである。
HourVideoには、20分から120分の間、手動で編集されたエゴセントリックなビデオが500本含まれている。
ベンチマークの結果、GPT-4やLLaVA-NeXTを含むマルチモーダルモデルでは、ランダムな確率よりも限界的な改善が得られた。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - LongVILA: Scaling Long-Context Visual Language Models for Long Videos [86.28679075537089]
LongVILAは、アルゴリズムとシステムの共同設計により、長文のビジュアル言語モデルのためのフルスタックソリューションである。
長文マルチモーダルシーケンス並列処理(MM-SP)システムを導入し,長文ビデオトレーニングと推論を効率的に並列化する。
LongVILA は VILA の動画フレーム数を 8 から 2048 に効率的に拡張し、長いビデオキャプションスコアを 2.00 から 3.26 に改善し、6,000 フレーム (100 万枚以上のトークン) のビデオニードル・イン・ア・ヘイスタックで 99.8% の精度を実現した。
論文 参考訳(メタデータ) (2024-08-19T17:48:08Z) - LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9477837230283]
LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。
私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。
我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
論文 参考訳(メタデータ) (2024-07-22T16:00:55Z) - Goldfish: Vision-Language Understanding of Arbitrarily Long Videos [51.547065479762715]
任意の長さのビデオの解釈に適した手法を提案する。
また,TVQA-longベンチマークを導入し,視覚とテキストコンテンツの両方に疑問を呈する長編ビデオの理解におけるモデルの能力を評価する。
以上の結果から,本モデルでは長大・短大双方の理解が大幅に改善されていることが示唆された。
論文 参考訳(メタデータ) (2024-07-17T15:59:32Z) - VideoVista: A Versatile Benchmark for Video Understanding and Reasoning [46.838692817107116]
さまざまなコンテンツカテゴリ、期間、能力の課題を統合するビデオQAベンチマークであるVideoVistaを紹介します。
VideoVistaは、14のカテゴリー(例えば、ハウト、フィルム、エンターテイメント)にまたがる3,400本のビデオから、25,000の質問で構成されており、期間は数秒から10分以上である。
19種類の理解タスク(例:異常検出、相互作用理解)と8つの推論タスク(例:論理推論、因果推論)を含んでいる。
論文 参考訳(メタデータ) (2024-06-17T08:09:00Z) - Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-31T17:59:47Z) - Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。
提案手法は,全タスクの絶対精度を3~6%向上させる。
意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2024-04-05T18:33:04Z) - MoVQA: A Benchmark of Versatile Question-Answering for Long-Form Movie
Understanding [69.04413943858584]
長文映画の質問応答データセットであるMoVQAを紹介する。
マルチモーダルシステムの多様な認知能力を評価するためのベンチマークも行った。
論文 参考訳(メタデータ) (2023-12-08T03:33:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。