論文の概要: Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning?
- arxiv url: http://arxiv.org/abs/2505.21374v1
- Date: Tue, 27 May 2025 16:05:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.782817
- Title: Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning?
- Title(参考訳): ビデオ・ホームズ:MLLMは複雑なビデオ再生のためのホームズになれるか?
- Authors: Junhao Cheng, Yuying Ge, Teng Wang, Yixiao Ge, Jing Liao, Ying Shan,
- Abstract要約: 本稿では,MLLMの複雑なビデオ推論能力を評価するためのベンチマークであるVideo-Holmesを紹介する。
Video-Holmesは270本の手動注釈付きサスペンス短編映画から1,837の質問で構成されている。
最新のMLLMを包括的に評価した結果,これらのモデルは視覚的知覚に優れるが,情報の統合にはかなりの困難が伴うことが明らかとなった。
- 参考スコア(独自算出の注目度): 56.06537213958482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in CoT reasoning and RL post-training have been reported to enhance video reasoning capabilities of MLLMs. This progress naturally raises a question: can these models perform complex video reasoning in a manner comparable to human experts? However, existing video benchmarks primarily evaluate visual perception and grounding abilities, with questions that can be answered based on explicit prompts or isolated visual cues. Such benchmarks do not fully capture the intricacies of real-world reasoning, where humans must actively search for, integrate, and analyze multiple clues before reaching a conclusion. To address this issue, we present Video-Holmes, a benchmark inspired by the reasoning process of Sherlock Holmes, designed to evaluate the complex video reasoning capabilities of MLLMs. Video-Holmes consists of 1,837 questions derived from 270 manually annotated suspense short films, which spans seven carefully designed tasks. Each task is constructed by first identifying key events and causal relationships within films, and then designing questions that require models to actively locate and connect multiple relevant visual clues scattered across different video segments. Our comprehensive evaluation of state-of-the-art MLLMs reveals that, while these models generally excel at visual perception, they encounter substantial difficulties with integrating information and often miss critical clues. For example, the best-performing model, Gemini-2.5-Pro, achieves an accuracy of only 45%, with most models scoring below 40%. We aim that Video-Holmes can serve as a "Holmes-test" for multimodal reasoning, motivating models to reason more like humans and emphasizing the ongoing challenges in this field. The benchmark is released in https://github.com/TencentARC/Video-Holmes.
- Abstract(参考訳): MLLMの映像推論能力を高めるため,CoT推論とRLポストトレーニングの最近の進歩が報告されている。
これらのモデルは、人間の専門家に匹敵する方法で複雑なビデオ推論を実行できますか?
しかし、既存のビデオベンチマークは主に視覚知覚と接地能力を評価しており、明確なプロンプトや孤立した視覚的手がかりに基づいて回答できる。
このようなベンチマークは、人間が結論に達する前に複数の手がかりを積極的に検索し、統合し、分析しなければならない現実世界の推論の複雑さを完全には捉えていない。
この問題に対処するため,我々は,MLLMの複雑なビデオ推論能力を評価するために,Sherlock Holmesの推論プロセスにインスパイアされたベンチマークであるVideo-Holmesを提案する。
Video-Holmesは、270本の手動注釈付きサスペンス短編映画から抽出された1,837の質問で構成されている。
それぞれのタスクは、まず映画内の重要な出来事と因果関係を特定し、次に、異なるビデオセグメントに散在する複数の関連する視覚的手がかりを積極的に見つけて接続する必要がある質問を設計することによって構成される。
最新のMLLMを包括的に評価した結果,これらのモデルは視覚的知覚に優れるが,情報の統合が困難であり,重要な手がかりを見逃しがちであることがわかった。
例えば、最高のパフォーマンスモデルであるGemini-2.5-Proは45%の精度しか達成せず、ほとんどのモデルは40%以下である。
我々は、ビデオ・ホームズがマルチモーダル推論の「ホームズ・テスト」として機能し、モデルが人間らしく推論し、この分野で進行中の課題を強調することを目標としている。
ベンチマークはhttps://github.com/TencentARC/Video-Holmesで公開されている。
関連論文リスト
- SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models [80.3895950009792]
ビデオにおけるきめ細かい時間的理解の獲得は、現在のビデオ大マルチモデル(ビデオLMM)にとって大きな課題である。
私たちは、データセット、モデル、ベンチマークの3つの中核的な側面に貢献しています。
まず,ビデオ理解,グラウンドニング,マルチターンビデオチャットの共用学習を実現するため、15Kビデオからなる大規模データセットであるSAMA-239Kを紹介する。
第2に,広義の時間的コンテキストアグリゲータとセグメンションモデルを組み合わせたSAMAモデルを提案する。
論文 参考訳(メタデータ) (2025-05-24T18:13:16Z) - VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding [54.16233954353802]
VideoHalluは、Veo2、Sora、Klingといったモデルによって生成された合成ビデオから構築された3000以上のビデオQAペアのベンチマークである。
マルチモーダル大言語モデル(MLLM)の批判的思考能力は,人間に知覚的に明らかだが,言語先行により幻覚することが多い異常に対して評価する。
これらのモデルはMVBenchやMovieChatのような実世界の多くのベンチマークでよく機能するが、合成ビデオにおける物理に基づく基本的な推論と常識的推論に苦戦している。
論文 参考訳(メタデータ) (2025-05-02T15:58:38Z) - MINERVA: Evaluating Complex Video Reasoning [72.12644008002566]
我々は、最新のマルチモーダルモデルのためのMINERVAと呼ばれる新しいビデオ推論データセットを提供する。
我々のデータセットはマルチモーダルであり、ビデオ領域と長さの点で多様であり、複雑なマルチステップの質問で構成されている。
我々は,様々なモデルにまたがる共通障害モードを特定するために,きめ細かいエラー解析を行い,推論エラーの分類を作成する。
論文 参考訳(メタデータ) (2025-05-01T17:41:49Z) - CG-Bench: Clue-grounded Question Answering Benchmark for Long Video Understanding [43.858197893052115]
CG-Benchは、長いビデオのヒント付き質問応答のための新しいベンチマークである。
14の一次カテゴリ、171の二次カテゴリ、638の第三カテゴリからなる粒度のシステムで、1,219の動画を手作業でキュレートする。
このベンチマークには、知覚、推論、幻覚という3つの主要な質問タイプに12,129のQAペアが含まれている。
論文 参考訳(メタデータ) (2024-12-16T18:46:45Z) - Black Swan: Abductive and Defeasible Video Reasoning in Unpredictable Events [33.51522765443546]
BlackSwanSuiteは、予期しない事象を推論する視覚言語モデルの能力を評価するためのベンチマークである。
我々は,3,800 MCQ,4,900 生成,6,700 のイエス/ノー質問からなる総合的なベンチマークスイートを1,655 本の動画にまとめてキュレートする。
これらのタスクでは、人間から最大32%のパフォーマンスギャップが見られます。
論文 参考訳(メタデータ) (2024-12-07T19:19:03Z) - Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level [63.18855743293851]
Motion-Grounded Video Reasoningは、入力された質問に応じて視覚的回答(ビデオセグメンテーションマスク)を必要とする新しい動作理解タスクである。
このタスクは、質問による暗黙の推論を可能にすることで、明示的なアクション/モーショングラウンドの既存の基盤作業を、より一般的なフォーマットに拡張する。
我々はMotion-Grounded Video Reasoning Assistant(MORA)という新しいベースラインモデルを導入する。
論文 参考訳(メタデータ) (2024-11-15T03:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。