Fugu-MT 論文翻訳(概要): InfiniBench: A Comprehensive Benchmark for Large Multimodal Models in Very Long Video Understanding

論文の概要: InfiniBench: A Comprehensive Benchmark for Large Multimodal Models in Very Long Video Understanding

arxiv url: http://arxiv.org/abs/2406.19875v2
Date: Sat, 31 Aug 2024 10:34:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-04 17:31:13.812152
Title: InfiniBench: A Comprehensive Benchmark for Large Multimodal Models in Very Long Video Understanding
Title（参考訳）: InfiniBench: ビデオ理解における大規模マルチモーダルモデルの総合ベンチマーク
Authors: Kirolos Ataallah, Chenhui Gou, Eslam Abdelrahman, Khushbu Pahwa, Jian Ding, Mohamed Elhoseiny,
Abstract要約: InfiniBenchは、数分間から数時間の長いビデオを理解するためのベンチマークである。 1) ビデオの長さは, 平均52.59分, 2) 最大数の質問対108.2K, 3) 異なる9つのスキルを検査し, 複数選択の質問とオープンエンドの質問の両方を含む質問の多様性 4) 映像ソースは映画やテレビ番組から来る人間中心である。 GPT-4oやGemini 1.5 Flashのような主要なAIモデルでさえ、長時間のビデオ理解において高いパフォーマンスを達成する上で課題に直面している。
参考スコア（独自算出の注目度）: 31.147208579511247
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Understanding long videos, ranging from tens of minutes to several hours, presents unique challenges in video comprehension. Despite the increasing importance of long-form video content, existing benchmarks primarily focus on shorter clips. To address this gap, we introduce InfiniBench a comprehensive benchmark for very long video understanding which presents 1)The longest video duration, averaging 52.59 minutes per video 2) The largest number of question-answer pairs, 108.2K 3) Diversity in questions that examine nine different skills and include both multiple-choice questions and open-ended questions 4) Human-centric, as the video sources come from movies and daily TV shows, with specific human-level question designs such as Movie Spoiler Questions that require critical thinking and comprehensive understanding. Using InfiniBench, we comprehensively evaluate existing Large Multi-Modality Models (LMMs) on each skill, including the commercial models such as GPT-4o and Gemini 1.5 Flash and the open-source models. The evaluation shows significant challenges in our benchmark. Our findings reveal that even leading AI models like GPT-4o and Gemini 1.5 Flash face challenges in achieving high performance in long video understanding, with average accuracies of just 49.16\% and 42.72\%, and average scores of 3.22 and 2.71 out of 5, respectively. We hope this benchmark will stimulate the LMMs community towards long video and human-level understanding. Our benchmark can be accessed at https://vision-cair.github.io/InfiniBench/
Abstract（参考訳）: 長いビデオを理解するには、数分間から数時間かかるが、ビデオの理解にはユニークな課題がある。長大なビデオコンテンツの重要性は高まっているが、既存のベンチマークは主に短いクリップに焦点を当てている。このギャップに対処するため、我々はInfiniBenchを非常に長いビデオ理解のための総合的なベンチマークとして導入した。 2)質問応答対最大108.2K 3)9つの異なるスキルを検証し、複数の選択の質問とオープンエンドの質問の両方を含む質問の多様性 4) 映像ソースは映画や毎日のテレビ番組から生まれており、批判的思考と包括的理解を必要とする映画スポイラー質問のような人間レベルの質問デザインである。 InfiniBenchを用いて、GPT-4oやGemini 1.5 Flashといった商用モデルやオープンソースモデルを含む、既存のLMM(Large Multi-Modality Model)を各スキルで包括的に評価する。この評価は、我々のベンチマークで大きな課題を示している。 GPT-4oやGemini 1.5 Flashのような主要なAIモデルでさえ、長いビデオ理解においてハイパフォーマンスを達成する上で、平均精度は49.16\%と42.72\%、平均スコアは5点中3.22と2.71である。このベンチマークがLMMコミュニティを、長いビデオと人間レベルの理解に刺激することを期待している。私たちのベンチマークはhttps://vision-cair.github.io/InfiniBench/でアクセスできます。

関連論文リスト

VideoChat-A1: Thinking with Long Videos by Chain-of-Shot Reasoning [40.071064407275564]
VideoChat-A1は、新しい長編ビデオエージェントパラダイムである。長いビデオでは、明確な連鎖推論パラダイムを通じて深く考えることができる。ショットチェーンに沿ったマルチモーダル推論によって、VideoChat-A1はステップバイステップの人間の思考プロセスを効果的に模倣することができる。
論文参考訳（メタデータ） (2025-06-06T13:58:31Z)
Unleashing Hour-Scale Video Training for Long Video-Language Understanding [61.717205915329664]
本稿では,大規模な時間長ビデオインストラクション追従データセットであるVideoMarathonを紹介する。このデータセットには、ビデオあたり3分から60分に及ぶ、さまざまなドメインからソースされた9,700時間の長いビデオが含まれている。時間スケールビデオ言語モデリングのための高効率ビデオLMMであるHour-LLaVAを提案する。
論文参考訳（メタデータ） (2025-06-05T17:59:04Z)
Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning? [56.06537213958482]
本稿では,MLLMの複雑なビデオ推論能力を評価するためのベンチマークであるVideo-Holmesを紹介する。 Video-Holmesは270本の手動注釈付きサスペンス短編映画から1,837の質問で構成されている。最新のMLLMを包括的に評価した結果,これらのモデルは視覚的知覚に優れるが,情報の統合にはかなりの困難が伴うことが明らかとなった。
論文参考訳（メタデータ） (2025-05-27T16:05:01Z)
SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models [80.3895950009792]
ビデオにおけるきめ細かい時間的理解の獲得は、現在のビデオ大マルチモデル(ビデオLMM)にとって大きな課題である。私たちは、データセット、モデル、ベンチマークの3つの中核的な側面に貢献しています。まず,ビデオ理解,グラウンドニング,マルチターンビデオチャットの共用学習を実現するため、15Kビデオからなる大規模データセットであるSAMA-239Kを紹介する。第2に,広義の時間的コンテキストアグリゲータとセグメンションモデルを組み合わせたSAMAモデルを提案する。
論文参考訳（メタデータ） (2025-05-24T18:13:16Z)
HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding [52.696422425058245]
我々は、長時間ビデオ理解モデルを評価するために、大規模な時間長ビデオベンチマークHLV-1Kを構築した。 HLV-1Kは、高品質質問応答(QA)とマルチチョイス質問応答(MCQA)を備えた1009時間ビデオからなる。我々は,既存の最先端手法を用いてベンチマークを評価し,様々なレベルでの深層ビデオ理解能力をテストすることの価値を実証した。
論文参考訳（メタデータ） (2025-01-03T05:32:37Z)
CG-Bench: Clue-grounded Question Answering Benchmark for Long Video Understanding [43.858197893052115]
CG-Benchは、長いビデオのヒント付き質問応答のための新しいベンチマークである。 14の一次カテゴリ、171の二次カテゴリ、638の第三カテゴリからなる粒度のシステムで、1,219の動画を手作業でキュレートする。このベンチマークには、知覚、推論、幻覚という3つの主要な質問タイプに12,129のQAペアが含まれている。
論文参考訳（メタデータ） (2024-12-16T18:46:45Z)
HourVideo: 1-Hour Video-Language Understanding [34.90495038962066]
HourVideoは、時間単位のビデオ言語理解のためのベンチマークデータセットである。 HourVideoには、20分から120分の間、手動で編集されたエゴセントリックなビデオが500本含まれている。ベンチマークの結果、GPT-4やLLaVA-NeXTを含むマルチモーダルモデルでは、ランダムな確率よりも限界的な改善が得られた。
論文参考訳（メタデータ） (2024-11-07T18:59:16Z)
LongVILA: Scaling Long-Context Visual Language Models for Long Videos [86.28679075537089]
LongVILAは、アルゴリズムとシステムの共同設計により、長文のビジュアル言語モデルのためのフルスタックソリューションである。長文マルチモーダルシーケンス並列処理(MM-SP)システムを導入し,長文ビデオトレーニングと推論を効率的に並列化する。 LongVILA は VILA の動画フレーム数を 8 から 2048 に効率的に拡張し、長いビデオキャプションスコアを 2.00 から 3.26 に改善し、6,000 フレーム (100 万枚以上のトークン) のビデオニードル・イン・ア・ヘイスタックで 99.8% の精度を実現した。
論文参考訳（メタデータ） (2024-08-19T17:48:08Z)
LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9477837230283]
LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
論文参考訳（メタデータ） (2024-07-22T16:00:55Z)
Goldfish: Vision-Language Understanding of Arbitrarily Long Videos [51.547065479762715]
任意の長さのビデオの解釈に適した手法を提案する。また,TVQA-longベンチマークを導入し,視覚とテキストコンテンツの両方に疑問を呈する長編ビデオの理解におけるモデルの能力を評価する。以上の結果から,本モデルでは長大・短大双方の理解が大幅に改善されていることが示唆された。
論文参考訳（メタデータ） (2024-07-17T15:59:32Z)
VideoVista: A Versatile Benchmark for Video Understanding and Reasoning [46.838692817107116]
さまざまなコンテンツカテゴリ、期間、能力の課題を統合するビデオQAベンチマークであるVideoVistaを紹介します。 VideoVistaは、14のカテゴリー(例えば、ハウト、フィルム、エンターテイメント)にまたがる3,400本のビデオから、25,000の質問で構成されており、期間は数秒から10分以上である。 19種類の理解タスク(例:異常検出、相互作用理解)と8つの推論タスク(例:論理推論、因果推論)を含んでいる。
論文参考訳（メタデータ） (2024-06-17T08:09:00Z)
Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文参考訳（メタデータ） (2024-05-31T17:59:47Z)
Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。提案手法は,全タスクの絶対精度を3～6%向上させる。意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文参考訳（メタデータ） (2024-04-05T18:33:04Z)
MoVQA: A Benchmark of Versatile Question-Answering for Long-Form Movie Understanding [69.04413943858584]
長文映画の質問応答データセットであるMoVQAを紹介する。マルチモーダルシステムの多様な認知能力を評価するためのベンチマークも行った。
論文参考訳（メタデータ） (2023-12-08T03:33:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。