論文の概要: Learning Spatiotemporal Sensitivity in Video LLMs via Counterfactual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.21988v1
- Date: Thu, 21 May 2026 04:38:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.093007
- Title: Learning Spatiotemporal Sensitivity in Video LLMs via Counterfactual Reinforcement Learning
- Title(参考訳): 対実強化学習によるビデオLLMの時空間感度の学習
- Authors: Dazhao Du, Jian Liu, Jialong Qin, Tao Han, Bohai Gu, Fangqi Zhu, Yujia Zhang, Eric Liu, Xi Chen, Song Guo,
- Abstract要約: ビデオ大言語モデル(ビデオモデル)は、強力なベンチマーク精度を達成するが、ダイナミックスを追跡するのではなく、シングルフレームキューや言語先行といったショートカットを通じてビデオ質問に答えることが多い。
この問題はRLポストトレーニングにおいてさらに悪化しており、ビデオダイナミクスを追跡せずに高い報酬を得るショートカットポリシーをさらに強化することができる。
視覚世界が変化したとしても、答えは変わっているか、同じままか、という問題に対処する。
- 参考スコア(独自算出の注目度): 24.29101453473451
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video large language models (Video LLMs) achieve strong benchmark accuracy, yet often answer video questions through shortcuts such as single-frame cues and language priors rather than by tracking spatiotemporal dynamics. This issue is exacerbated in RL post-training, where correctness-only rewards can further reinforce shortcut policies that obtain high reward without tracking video dynamics. We address this by asking a controlled counterfactual question: if the visual world changed while the question remained fixed, should the answer change or stay the same? Based on this view, we propose \textbf{Counterfactual Relational Policy Optimization (CRPO)}, a dual-branch RL framework for improving \emph{spatiotemporal sensitivity}. CRPO constructs counterfactual videos through horizontal flips and temporal reversals, trains on both original and counterfactual branches, and introduces a \textbf{Counterfactual Relation Reward (CRR)} between their answers. CRR encourages answers to change for dynamic questions and remain unchanged for static questions. This cross-branch constraint makes it difficult for shortcut policies to be consistently rewarded across both branches. To evaluate this property, we introduce \textbf{DyBench}, a paired counterfactual video benchmark with 3,014 videos covering reversible dynamics, moving direction, and event sequence, together with a strict pair-accuracy metric that prevents fixed-answer shortcuts from inflating scores. Experiments show that CRPO outperforms prior RL methods on spatiotemporal-sensitive evaluations while maintaining competitive general video performance. On Qwen3-VL-8B, CRPO improves DyBench P-Acc by +7.7 and TimeBlind I-Acc by +8.2 over the base model, indicating improved spatiotemporal sensitivity rather than stronger reliance on static shortcuts. The project website can be found at https://ddz16.github.io/crpo.github.io/ .
- Abstract(参考訳): ビデオ大言語モデル(ビデオLLM)は、強力なベンチマーク精度を達成するが、時空間力学を追跡するのではなく、単一フレームキューや言語先行といったショートカットを通じて、ビデオの質問に答えることが多い。
この問題はRLポストトレーニングにおいてさらに悪化しており、ビデオダイナミクスを追跡せずに高い報酬を得るショートカットポリシーをさらに強化することができる。
視覚世界が変化したとしても、疑問が固まっていれば、答えは変わりますか、同じままなのか?
この観点から,両分岐型RLフレームワークである \textbf{Counterfactal Relational Policy Optimization (CRPO) を提案する。
CRPOは水平フリップと時間反転による反ファクトビデオを構築し、元のブランチと反ファクトのブランチをトレーニングし、その回答の間に \textbf{Counterfactual Relation Reward (CRR) を導入する。
CRRは、動的質問の回答を奨励し、静的質問の回答は変わらない。
このクロスブランチの制約により、両方のブランチに一貫した報酬を与えるショートカットポリシが困難になる。
この特性を評価するために,3,014本の動画が可逆的ダイナミクス,移動方向,イベントシーケンスをカバーしたペアビデオベンチマークである‘textbf{DyBench} と,固定応答ショートカットによるスコアの膨らみを防止する厳密なペア精度指標を紹介する。
実験により、CRPOは、競争力のある汎用映像性能を維持しつつ、時空間感応評価において、従来のRL法よりも優れていることが示された。
Qwen3-VL-8Bでは、CRPOはDyBench P-Accを+7.7で改善し、TimeBlind I-Accを+8.2で改善した。
プロジェクトのWebサイトはhttps://ddz16.github.io/crpo.github.io/で見ることができる。
関連論文リスト
- Find, Fix, Reason: Context Repair for Video Reasoning [45.021693494492666]
強化学習は、大規模なマルチモーダルモデルにおいて高度なビデオ推論を持つ。
凍結したツール統合された教師は、時間的依存の欠如を認識し、最小限のエビデンスパッチを提供する。
本稿では,正解による結果の妥当性と依存性の整合性という2つの目標に最適化を整合させるロバスト改善リワード(RIR)を提案する。
論文 参考訳(メタデータ) (2026-04-17T17:04:19Z) - TemporalDoRA: Temporal PEFT for Robust Surgical Video Question Answering [12.77631688698326]
重み分解低ランク適応を拡張したビデオ特異的PEFT定式化であるTemporalDoRAを紹介する。
適応部分空間内のフレーム間で情報を混ぜることで、TemporalDoRAは時間的に一貫した視覚的手がかりに向けて更新を行う。
論文 参考訳(メタデータ) (2026-03-10T14:03:42Z) - TV-RAG: A Temporal-aware and Semantic Entropy-Weighted Framework for Long Video Retrieval and Understanding [14.570869250170139]
TV-RAGは、時間的アライメントとエントロピー誘導のセマンティクスを結合して、長時間ビデオの推論を改善する、トレーニング不要のアーキテクチャである。
これらの時間的および意味的な信号を織り合わせることで、TV-RAGは、再トレーニングや微調整なしに任意のLVLMに移植できる二重レベルの推論ルーチンを実現する。
論文 参考訳(メタデータ) (2025-12-29T14:10:22Z) - Zoom-Zero: Reinforced Coarse-to-Fine Video Understanding via Temporal Zoom-in [80.03914556721519]
グラウンドドビデオ質問応答(GVQA)は、ビデオ内の関連時間セグメントをローカライズし、与えられた質問に対する正確な回答を生成することを目的としている。
Zoom-Zeroは、まずクエリ関連セグメントをローカライズし、次に時間的に最も健全なフレームにズームして、よりきめ細かい視覚的検証を行うフレームワークである。
論文 参考訳(メタデータ) (2025-12-16T10:34:39Z) - Video-LLMs with Temporal Visual Screening [59.18455762289321]
テンポラル・ビジュアル・スクリーニング (TVS) はビデオ質問応答とチューニングデータを処理する新しいタスクである。
TVSは、ビデオインストラクションチューニング(トレーニング)とビデオ質問回答(推論)パイプラインの両方にシームレスに統合可能な、モジュール化されたフロントエンドアダプタタスクとして定式化されている。
実験により、TVSを取り入れた場合、相対利得は7.33%(トレーニング)、34.6%(推論)となることが示された。
論文 参考訳(メタデータ) (2025-08-27T14:33:32Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Frame-Subtitle Self-Supervision for Multi-Modal Video Question Answering [73.11017833431313]
マルチモーダルなビデオ質問応答は、正しい回答を予測し、その質問に関連する時間的境界をローカライズすることを目的としている。
我々は、QAアノテーションのみを使用する、弱い教師付き質問基盤(WSQG)の設定を考案する。
フレームと字幕の対応をフレーム字幕(FS)に変換し,時間的注意スコアの最適化を支援する。
論文 参考訳(メタデータ) (2022-09-08T07:20:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。