論文の概要: Reinforcing Consistency in Video MLLMs with Structured Rewards
- arxiv url: http://arxiv.org/abs/2604.01460v1
- Date: Wed, 01 Apr 2026 23:15:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.097607
- Title: Reinforcing Consistency in Video MLLMs with Structured Rewards
- Title(参考訳): 構造的リワードを有するビデオMLLMの整合性強化
- Authors: Yihao Quan, Zeru Shi, Jinman Zhao, Ruixiang Tang,
- Abstract要約: マルチモーダル大言語モデル (MLLM) はビデオ理解において顕著な進歩を遂げている。
本研究では,この障害モードを,キャプションを事実的・時間的クレームに分解する構成整合監査を通じて検討する。
本研究の目的は,(1)実物,属性,関係性に対する実例対応のシーングラフ報酬,(2)イベントの順序と繰り返しに対する時間報酬,(3)階層的自己検証のためのビデオグラウンド付VQA報酬の3つの相補的な構成要素を統合することである。
- 参考スコア(独自算出の注目度): 14.560061824569333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have achieved remarkable progress in video understanding. However, seemingly plausible outputs often suffer from poor visual and temporal grounding: a model may fabricate object existence, assign incorrect attributes, or collapse repeated events while still producing a globally reasonable caption or answer. We study this failure mode through a compositional consistency audit that decomposes a caption into supporting factual and temporal claims, investigating whether a correct high-level prediction is actually backed by valid lower-level evidence. Our top-down audit reveals that even correct root relational claims often lack reliable attribute and existence support. This indicates that standard sentence-level supervision is a weak proxy for faithful video understanding. Furthermore, when turning to reinforcement learning (RL) for better alignment, standard sentence-level rewards often prove too coarse to accurately localize specific grounding failures. To address this, we replace generic sentence-level rewards with a structured reward built from factual and temporal units. Our training objective integrates three complementary components: (1) an instance-aware scene-graph reward for factual objects, attributes, and relations; (2) a temporal reward for event ordering and repetition; and (3) a video-grounded VQA reward for hierarchical self-verification. Across temporal, general video understanding, and hallucination-oriented benchmarks, this objective yields consistent gains on open-source backbones. These results suggest that structured reward shaping is a practical route to more faithful video understanding.
- Abstract(参考訳): マルチモーダル大言語モデル (MLLM) はビデオ理解において顕著な進歩を遂げている。
しかし、一見可視的なアウトプットは、しばしば視覚的および時間的根拠の不足に悩まされる:モデルは、オブジェクトを作製し、誤った属性を割り当てたり、繰り返しのイベントを崩壊させたりしながら、グローバルに合理的なキャプションや答えを生成したりすることができる。
我々は,この障害モードを,キャプションを事実的・時間的クレームに分解する構成整合性監査を通じて検討し,正しいハイレベル予測が実際に有効な低レベル証拠によって裏付けられているかどうかを検証した。
私たちのトップダウン監査では、正しいルートリレーショナルなクレームでさえ、信頼できる属性と存在サポートを欠いていることが判明しています。
これは、標準文レベルの監視が忠実なビデオ理解の弱いプロキシであることを示している。
さらに、アライメントを改善するために強化学習(RL)に目を向ける場合、標準的な文レベルの報酬は、特定の基礎的障害を正確に局在させるには大きすぎることがしばしばある。
これを解決するために、実時間単位と時間単位から構築された構造的報酬に、一般的な文レベルの報酬を置き換える。
本研究の目的は,(1)実物,属性,関係性に対する実例対応のシーングラフ報酬,(2)イベントの順序と繰り返しに対する時間報酬,(3)階層的自己検証のためのビデオグラウンド付VQA報酬の3つの相補的な構成要素を統合することである。
時間的、一般的なビデオ理解、幻覚指向のベンチマークを通じて、この目的はオープンソースのバックボーンに一貫した利益をもたらす。
これらの結果は、構造化報酬形成がより忠実なビデオ理解への実践的な経路であることを示唆している。
関連論文リスト
- Incentivizing Temporal-Awareness in Egocentric Video Understanding Models [51.40541228498294]
マルチモーダル大言語モデル(MLLM)は近年,視覚的理解において高い性能を示したが,時間的認識が欠如していることが多い。
この欠損は、時間的推論に明示的に報酬を与えず、フレームレベルの空間的ショートカットに依存する訓練目的の一部に起因している。
本稿では,MLLMにおける時間的意識を高めるために,検証可能な報酬(RLVR)アルゴリズムを用いた強化学習である時間的グローバルポリシー最適化(TGPO)を提案する。
論文 参考訳(メタデータ) (2026-03-28T08:02:59Z) - VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos [44.23732277782877]
長時間の理解では、一様フレームサンプリングはしばしば重要な視覚的証拠を捉えず、性能が低下し幻覚が増大する。
最近のエージェント思考とビデオのパラダイムが出現し、ローカライズ・クリップ・アンサー・パイプラインが採用されている。
我々は,ビデオグラウンドと質問応答を共同でモデル化する統合型エージェント思考・ビデオフレームワークであるVideoTemp-o3を提案する。
論文 参考訳(メタデータ) (2026-02-08T03:45:50Z) - Temporally Consistent Object-Centric Learning by Contrasting Slots [23.203973564679508]
ビデオオブジェクト中心モデルに対して、新しいオブジェクトレベルの時間的コントラスト損失を導入する。
本手法は学習対象中心表現の時間的一貫性を著しく向上させる。
論文 参考訳(メタデータ) (2024-12-18T19:46:04Z) - On the Consistency of Video Large Language Models in Temporal Comprehension [57.985769348320616]
ビデオ大言語モデル(Video-LLMs)は、時間的に言語クエリを解析し、ビデオモーメントを検索することができる。
予測整合性 - 時間的根拠の堅牢性と信頼性を示す重要な指標である。
論文 参考訳(メタデータ) (2024-11-20T00:47:17Z) - Beyond Simple Sum of Delayed Rewards: Non-Markovian Reward Modeling for Reinforcement Learning [44.770495418026734]
強化学習(Reinforcement Learning, RL)は、報酬信号から学習することで、エージェントに様々なスキルを習得する権限を与える。
伝統的な手法では、マルコフ報酬の根底にある存在を仮定し、観測された遅延報酬は単にインスタンスレベルの報酬の和である。
本稿では,特殊なインシーケンスアテンション機構を備えた複合遅延逆変換器(CoDeTr)を提案する。
論文 参考訳(メタデータ) (2024-10-26T13:12:27Z) - Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding [70.31050639330603]
ビデオ段落の接頭辞は、意味的関係と時間的順序を持つ複数の文を、トリミングされていないビデオからローカライズすることを目的としている。
既存のVPGアプローチは、かなりの数の時間ラベルに大きく依存している。
我々は、時間的アノテーションの必要性を排除するために、Wakly-Supervised Video paragraph Grounding (WSVPG)を導入し、探索する。
論文 参考訳(メタデータ) (2024-03-18T04:30:31Z) - Weakly-Supervised Video Object Grounding via Causal Intervention [82.68192973503119]
我々は、モデル学習中にのみビデオ文アノテーションが利用できる、弱教師付きビデオオブジェクトグラウンドディング(WSVOG)の課題をターゲットにしている。
文で記述されたオブジェクトをビデオの視覚領域にローカライズすることを目的としており、パターン分析や機械学習に必要な基本的な機能である。
論文 参考訳(メタデータ) (2021-12-01T13:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。