論文の概要: InfiniBench: A Comprehensive Benchmark for Large Multimodal Models in Very Long Video Understanding
- arxiv url: http://arxiv.org/abs/2406.19875v2
- Date: Sat, 31 Aug 2024 10:34:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 17:31:13.812152
- Title: InfiniBench: A Comprehensive Benchmark for Large Multimodal Models in Very Long Video Understanding
- Title(参考訳): InfiniBench: ビデオ理解における大規模マルチモーダルモデルの総合ベンチマーク
- Authors: Kirolos Ataallah, Chenhui Gou, Eslam Abdelrahman, Khushbu Pahwa, Jian Ding, Mohamed Elhoseiny,
- Abstract要約: InfiniBenchは、数分間から数時間の長いビデオを理解するためのベンチマークである。
1) ビデオの長さは, 平均52.59分, 2) 最大数の質問対108.2K, 3) 異なる9つのスキルを検査し, 複数選択の質問とオープンエンドの質問の両方を含む質問の多様性 4) 映像ソースは映画やテレビ番組から来る人間中心である。
GPT-4oやGemini 1.5 Flashのような主要なAIモデルでさえ、長時間のビデオ理解において高いパフォーマンスを達成する上で課題に直面している。
- 参考スコア(独自算出の注目度): 31.147208579511247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding long videos, ranging from tens of minutes to several hours, presents unique challenges in video comprehension. Despite the increasing importance of long-form video content, existing benchmarks primarily focus on shorter clips. To address this gap, we introduce InfiniBench a comprehensive benchmark for very long video understanding which presents 1)The longest video duration, averaging 52.59 minutes per video 2) The largest number of question-answer pairs, 108.2K 3) Diversity in questions that examine nine different skills and include both multiple-choice questions and open-ended questions 4) Human-centric, as the video sources come from movies and daily TV shows, with specific human-level question designs such as Movie Spoiler Questions that require critical thinking and comprehensive understanding. Using InfiniBench, we comprehensively evaluate existing Large Multi-Modality Models (LMMs) on each skill, including the commercial models such as GPT-4o and Gemini 1.5 Flash and the open-source models. The evaluation shows significant challenges in our benchmark. Our findings reveal that even leading AI models like GPT-4o and Gemini 1.5 Flash face challenges in achieving high performance in long video understanding, with average accuracies of just 49.16\% and 42.72\%, and average scores of 3.22 and 2.71 out of 5, respectively. We hope this benchmark will stimulate the LMMs community towards long video and human-level understanding. Our benchmark can be accessed at https://vision-cair.github.io/InfiniBench/
- Abstract(参考訳): 長いビデオを理解するには、数分間から数時間かかるが、ビデオの理解にはユニークな課題がある。
長大なビデオコンテンツの重要性は高まっているが、既存のベンチマークは主に短いクリップに焦点を当てている。
このギャップに対処するため、我々はInfiniBenchを非常に長いビデオ理解のための総合的なベンチマークとして導入した。
2)質問応答対最大108.2K
3)9つの異なるスキルを検証し、複数の選択の質問とオープンエンドの質問の両方を含む質問の多様性
4) 映像ソースは映画や毎日のテレビ番組から生まれており、批判的思考と包括的理解を必要とする映画スポイラー質問のような人間レベルの質問デザインである。
InfiniBenchを用いて、GPT-4oやGemini 1.5 Flashといった商用モデルやオープンソースモデルを含む、既存のLMM(Large Multi-Modality Model)を各スキルで包括的に評価する。
この評価は、我々のベンチマークで大きな課題を示している。
GPT-4oやGemini 1.5 Flashのような主要なAIモデルでさえ、長いビデオ理解においてハイパフォーマンスを達成する上で、平均精度は49.16\%と42.72\%、平均スコアは5点中3.22と2.71である。
このベンチマークがLMMコミュニティを、長いビデオと人間レベルの理解に刺激することを期待している。
私たちのベンチマークはhttps://vision-cair.github.io/InfiniBench/でアクセスできます。
関連論文リスト
- HourVideo: 1-Hour Video-Language Understanding [34.90495038962066]
HourVideoは、時間単位のビデオ言語理解のためのベンチマークデータセットである。
HourVideoには、20分から120分の間、手動で編集されたエゴセントリックなビデオが500本含まれている。
ベンチマークの結果、GPT-4やLLaVA-NeXTを含むマルチモーダルモデルでは、ランダムな確率よりも限界的な改善が得られた。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - LongVILA: Scaling Long-Context Visual Language Models for Long Videos [86.28679075537089]
LongVILAは、アルゴリズムとシステムの共同設計により、長文のビジュアル言語モデルのためのフルスタックソリューションである。
長文マルチモーダルシーケンス並列処理(MM-SP)システムを導入し,長文ビデオトレーニングと推論を効率的に並列化する。
LongVILA は VILA の動画フレーム数を 8 から 2048 に効率的に拡張し、長いビデオキャプションスコアを 2.00 から 3.26 に改善し、6,000 フレーム (100 万枚以上のトークン) のビデオニードル・イン・ア・ヘイスタックで 99.8% の精度を実現した。
論文 参考訳(メタデータ) (2024-08-19T17:48:08Z) - LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9477837230283]
LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。
私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。
我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
論文 参考訳(メタデータ) (2024-07-22T16:00:55Z) - Goldfish: Vision-Language Understanding of Arbitrarily Long Videos [51.547065479762715]
任意の長さのビデオの解釈に適した手法を提案する。
また,TVQA-longベンチマークを導入し,視覚とテキストコンテンツの両方に疑問を呈する長編ビデオの理解におけるモデルの能力を評価する。
以上の結果から,本モデルでは長大・短大双方の理解が大幅に改善されていることが示唆された。
論文 参考訳(メタデータ) (2024-07-17T15:59:32Z) - VideoVista: A Versatile Benchmark for Video Understanding and Reasoning [46.838692817107116]
さまざまなコンテンツカテゴリ、期間、能力の課題を統合するビデオQAベンチマークであるVideoVistaを紹介します。
VideoVistaは、14のカテゴリー(例えば、ハウト、フィルム、エンターテイメント)にまたがる3,400本のビデオから、25,000の質問で構成されており、期間は数秒から10分以上である。
19種類の理解タスク(例:異常検出、相互作用理解)と8つの推論タスク(例:論理推論、因果推論)を含んでいる。
論文 参考訳(メタデータ) (2024-06-17T08:09:00Z) - Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-31T17:59:47Z) - Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。
提案手法は,全タスクの絶対精度を3~6%向上させる。
意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2024-04-05T18:33:04Z) - MoVQA: A Benchmark of Versatile Question-Answering for Long-Form Movie
Understanding [69.04413943858584]
長文映画の質問応答データセットであるMoVQAを紹介する。
マルチモーダルシステムの多様な認知能力を評価するためのベンチマークも行った。
論文 参考訳(メタデータ) (2023-12-08T03:33:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。