論文の概要: Video-R2: Reinforcing Consistent and Grounded Reasoning in Multimodal Language Models
- arxiv url: http://arxiv.org/abs/2511.23478v1
- Date: Fri, 28 Nov 2025 18:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:56.041557
- Title: Video-R2: Reinforcing Consistent and Grounded Reasoning in Multimodal Language Models
- Title(参考訳): Video-R2:マルチモーダル言語モデルにおける一貫性と接地推論の強化
- Authors: Muhammad Maaz, Hanoona Rasheed, Fahad Shahbaz Khan, Salman Khan,
- Abstract要約: 動的ビジュアルコンテンツに対する推論は、大きな言語モデルにとって依然として中心的な課題である。
本稿では,時間的精度と推論一貫性を両立させる強化学習手法を提案する。
結果のモデルであるVideo R2は、複数のベンチマークでTAC、VAS、精度を一貫して向上させる。
- 参考スコア(独自算出の注目度): 56.851611990473174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning over dynamic visual content remains a central challenge for multimodal large language models. Recent thinking models generate explicit reasoning traces for interpretability; however, their reasoning often appears convincing while being logically inconsistent or weakly grounded in visual evidence. We identify and formalize these issues through two diagnostic metrics: Think Answer Consistency (TAC), which measures the alignment between reasoning and answers, and Video Attention Score (VAS), which captures the extent to which reasoning depends on visual versus textual cues. Analysis across 11 video reasoning benchmarks shows that current models rely heavily on linguistic priors rather than visual content. To address this, we propose a reinforcement learning approach that enhances both temporal precision and reasoning consistency. Our approach combines timestamp aware supervised fine tuning with Group Relative Policy Optimization (GRPO) guided by a novel Temporal Alignment Reward (TAR). This dual step post training stage encourages temporally aligned and causally coherent video reasoning. The resulting model, Video R2, achieves consistently higher TAC, VAS, and accuracy across multiple benchmarks, demonstrating that improvements in temporal alignment and reasoning coherence lead to more accurate and trustworthy video understanding. Our code, dataset, and model will be open sourced.
- Abstract(参考訳): 動的ビジュアルコンテンツに対する推論は、マルチモーダルな大言語モデルにとって依然として中心的な課題である。
近年の思考モデルは、解釈可能性の明確な推論トレースを生成するが、その推論は論理的に矛盾しているか、あるいは視覚的証拠に弱いかのように見えることが多い。
我々は、これらの問題を2つの診断指標(TAC:Think Answer Consistency)と、推論と回答の整合性を測定するVideo Attention Score(VAS:Video Attention Score)で識別し、形式化する。
11のビデオ推論ベンチマークの分析によると、現在のモデルは視覚的コンテンツよりも言語的優先に大きく依存している。
そこで本稿では,時間的精度と推論一貫性を両立させる強化学習手法を提案する。
提案手法は, 時間的アライメント・リワード(TAR)によって導かれるグループ相対政策最適化(GRPO)と, 教師付き微調整を併用する。
この二重ステップのポストトレーニング段階は、時間的に整列し、因果的にコヒーレントなビデオ推論を促進する。
結果のモデルであるVideo R2は、複数のベンチマークでTAC、VAS、精度を一貫して向上させ、時間的アライメントの改善と推論コヒーレンスの改善により、より正確で信頼性の高いビデオ理解につながることを示した。
私たちのコード、データセット、モデルはオープンソースになります。
関連論文リスト
- AURA: A Fine-Grained Benchmark and Decomposed Metric for Audio-Visual Reasoning [3.949628618389608]
AURAは、Audio-Visual Large Language Models (AV-LLMs) とOmni-Modal Language Models (OLMs) のクロスモーダル推論能力を評価するためのベンチマークである。
AURAには、因果性、音色とピッチ、テンポとAV同期、未解決性、暗黙の気遣い、スキルプロファイリングといった6つの困難な認知領域に関する質問が含まれている。
本稿では,理性評価のための頑健なツールの欠如に対処する新しい計量AuraScoreを提案する。
論文 参考訳(メタデータ) (2025-08-10T20:06:42Z) - VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models [29.706347050700867]
ビデオベース長周期因果推論(VCRBench)という新しいベンチマークを導入する。
VCRBenchは、LVLM(Large Video Language Model)が特定の目標を達成するために必要なイベントを特定し、推論し、正しくシーケンスできるかどうかをテストする。
本稿では,ビデオに基づく因果推論を,ビデオ認識と因果推論の2つのサブタスクに分割するモジュラーアプローチである認識推論分解(RRD)を提案する。
論文 参考訳(メタデータ) (2025-05-13T11:35:58Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - On the Consistency of Video Large Language Models in Temporal Comprehension [57.985769348320616]
ビデオ大言語モデル(Video-LLMs)は、時間的に言語クエリを解析し、ビデオモーメントを検索することができる。
予測整合性 - 時間的根拠の堅牢性と信頼性を示す重要な指標である。
論文 参考訳(メタデータ) (2024-11-20T00:47:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。