論文の概要: MMR-V: What's Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos
- arxiv url: http://arxiv.org/abs/2506.04141v1
- Date: Wed, 04 Jun 2025 16:33:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.470319
- Title: MMR-V: What's Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos
- Title(参考訳): MMR-V:ビデオにおけるマルチモーダルディープ推論のベンチマーク
- Authors: Kejian Zhu, Zhuoran Jin, Hongbang Yuan, Jiachun Li, Shangqing Tu, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao,
- Abstract要約: ビデオにおけるマルチモーダルディープ推論のためのベンチマークMMR-Vを提案する。
ベンチマークの特徴は以下のとおりである。
実験によると、現在のモデルはまだマルチモーダル推論に苦戦している。
- 参考スコア(独自算出の注目度): 22.10711693948861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The sequential structure of videos poses a challenge to the ability of multimodal large language models (MLLMs) to locate multi-frame evidence and conduct multimodal reasoning. However, existing video benchmarks mainly focus on understanding tasks, which only require models to match frames mentioned in the question (hereafter referred to as "question frame") and perceive a few adjacent frames. To address this gap, we propose MMR-V: A Benchmark for Multimodal Deep Reasoning in Videos. The benchmark is characterized by the following features. (1) Long-range, multi-frame reasoning: Models are required to infer and analyze evidence frames that may be far from the question frame. (2) Beyond perception: Questions cannot be answered through direct perception alone but require reasoning over hidden information. (3) Reliability: All tasks are manually annotated, referencing extensive real-world user understanding to align with common perceptions. (4) Confusability: Carefully designed distractor annotation strategies to reduce model shortcuts. MMR-V consists of 317 videos and 1,257 tasks. Our experiments reveal that current models still struggle with multi-modal reasoning; even the best-performing model, o4-mini, achieves only 52.5% accuracy. Additionally, current reasoning enhancement strategies (Chain-of-Thought and scaling test-time compute) bring limited gains. Further analysis indicates that the CoT demanded for multi-modal reasoning differs from it in textual reasoning, which partly explains the limited performance gains. We hope that MMR-V can inspire further research into enhancing multi-modal reasoning capabilities.
- Abstract(参考訳): ビデオのシーケンシャルな構造は、マルチモーダルな大規模言語モデル(MLLM)がマルチフレームの証拠を見つけ出し、マルチモーダルな推論を行う能力に挑戦している。
しかし、既存のビデオベンチマークは主にタスクの理解に重点を置いており、これは問題(後に「クエクション・フレーム」と呼ばれる)に言及されたフレームと一致するモデルのみを必要とする。
このギャップに対処するため,ビデオにおけるマルチモーダルディープ推論のためのベンチマークMMR-Vを提案する。
ベンチマークの特徴は以下のとおりである。
1) 長距離多フレーム推論: 問題フレームから遠く離れたエビデンスフレームを推論し分析するためにモデルが必要である。
2) 知覚を超えて: 質問は直接認識だけでは答えられないが, 隠された情報に対する推論が必要である。
(3)信頼性:すべてのタスクは手動でアノテートされ、一般的な認識に合わせるために、広範囲の現実世界のユーザ理解を参照する。
(4)難易度:モデルのショートカットを減らすために注意深い注意欠陥アノテーション戦略を設計する。
MMR-Vは317の動画と1,257のタスクで構成されている。
我々の実験によると、現在のモデルは依然としてマルチモーダル推論に苦戦しており、最高の性能のモデルであるo4-miniでさえ52.5%の精度しか達成していない。
さらに、現在の推論強化戦略(Chain-of-Thoughtとスケーリングテストタイム計算)は、限られた利益をもたらします。
さらに分析した結果,マルチモーダル推論で要求されるCoTとテキスト推論では異なることが判明した。
我々はMMR-Vがマルチモーダル推論能力の向上にさらなる研究を刺激することを期待している。
関連論文リスト
- VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning? [18.9270920369958]
ロングチェーン・オブ・思想(CoT)推論は、複雑なタスクにおける大規模言語モデル(LLM)の性能を大幅に向上させることができる。
近年の取り組みでは、ビデオ推論を目的としたベンチマークが提案されているが、タスクは知識駆動であり、視覚コンテンツにはあまり依存していないことが多い。
視覚中心の複雑なビデオ推論を評価するためのベンチマークであるVideoReasonBenchを紹介する。
論文 参考訳(メタデータ) (2025-05-29T11:33:43Z) - Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning? [56.06537213958482]
本稿では,MLLMの複雑なビデオ推論能力を評価するためのベンチマークであるVideo-Holmesを紹介する。
Video-Holmesは270本の手動注釈付きサスペンス短編映画から1,837の質問で構成されている。
最新のMLLMを包括的に評価した結果,これらのモデルは視覚的知覚に優れるが,情報の統合にはかなりの困難が伴うことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-27T16:05:01Z) - VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning [33.37714717781103]
VideoMindは、ビデオ理解のための新しいビデオ言語エージェントである。
ビデオの時間的推論に不可欠な機能を特定し,ロールベースのエージェントワークフローを開発する。
軽量なLoRAアダプタによるシームレスなロールスイッチングを実現する新しいChain-of-LoRA戦略を提案する。
論文 参考訳(メタデータ) (2025-03-17T17:59:33Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models [26.17300490736624]
MLLM(Multimodal Large Language Models)は、一貫した視覚・テキスト入力で主に訓練され、テストされる。
本稿では,MLLMの意味的ミスマッチの検出と推論能力を評価するためのマルチモーダル不整合推論ベンチマークを提案する。
我々は6つの最先端MLLMを評価し、o1のような専用マルチモーダル推論能力を持つモデルは、その性能を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-22T01:52:37Z) - Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level [63.18855743293851]
Motion-Grounded Video Reasoningは、入力された質問に応じて視覚的回答(ビデオセグメンテーションマスク)を必要とする新しい動作理解タスクである。
このタスクは、質問による暗黙の推論を可能にすることで、明示的なアクション/モーショングラウンドの既存の基盤作業を、より一般的なフォーマットに拡張する。
我々はMotion-Grounded Video Reasoning Assistant(MORA)という新しいベースラインモデルを導入する。
論文 参考訳(メタデータ) (2024-11-15T03:45:09Z) - TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models [28.883607056108605]
トマト(Tomato)は、ビデオ理解におけるMFMの時間的推論能力を厳格に評価するための新しいベンチマークである。
TOMATOは、6つのタスクにまたがる1,484件の注意深いキュレーションと人間による注釈付き質問で構成されている。
総合評価の結果, 人体モデルの性能差は57.3%であり, 最良性能モデルでは57.3%であった。
論文 参考訳(メタデータ) (2024-10-30T17:50:23Z) - TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。