論文の概要: Incentivizing Temporal-Awareness in Egocentric Video Understanding Models
- arxiv url: http://arxiv.org/abs/2603.27184v1
- Date: Sat, 28 Mar 2026 08:02:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.833759
- Title: Incentivizing Temporal-Awareness in Egocentric Video Understanding Models
- Title(参考訳): エゴセントリックビデオ理解モデルにおける時間認識のインセンティブ
- Authors: Zhiyang Xu, Tian Qin, Bowen Jin, Zhengfeng Lai, Meng Cao, Lifu Huang, Peng Zhang,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は近年,視覚的理解において高い性能を示したが,時間的認識が欠如していることが多い。
この欠損は、時間的推論に明示的に報酬を与えず、フレームレベルの空間的ショートカットに依存する訓練目的の一部に起因している。
本稿では,MLLMにおける時間的意識を高めるために,検証可能な報酬(RLVR)アルゴリズムを用いた強化学習である時間的グローバルポリシー最適化(TGPO)を提案する。
- 参考スコア(独自算出の注目度): 51.40541228498294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have recently shown strong performance in visual understanding, yet they often lack temporal awareness, particularly in egocentric settings where reasoning depends on the correct ordering and evolution of events. This deficiency stems in part from training objectives that fail to explicitly reward temporal reasoning and instead rely on frame-level spatial shortcuts. To address this limitation, we propose Temporal Global Policy Optimization (TGPO), a reinforcement learning with verifiable rewards (RLVR) algorithm designed to incentivize temporal awareness in MLLMs. TGPO contrasts model outputs generated from temporally ordered versus shuffled video frames to derive calibrated, globally normalized reward signals that explicitly favor temporally coherent reasoning. Integrated with GRPO and GSPO, TGPO supports cold-start RL training and effectively suppresses spatial shortcut behaviors learned by existing MLLMs. Experiments across five egocentric video benchmarks demonstrate that TGPO consistently improves temporal grounding and causal coherence, outperforming prior RL-based video reasoning approaches. Our results suggest that TGPO offers a simple and scalable pathway toward temporally robust MLLMs for egocentric video understanding.
- Abstract(参考訳): マルチモーダルな大言語モデル(MLLM)は近年、視覚的理解において高いパフォーマンスを示しているが、時間的認識を欠くことが多く、特に、推論がイベントの正しい順序や進化に依存するエゴセントリックな環境においてである。
この欠損は、時間的推論に明示的に報酬を与えず、フレームレベルの空間的ショートカットに依存する訓練目的の一部に起因している。
この制限に対処するため,MLLMにおける時間的意識を高めるために,検証可能な報酬付き強化学習(RLVR)アルゴリズムである時間的グローバルポリシー最適化(TGPO)を提案する。
TGPOは、時間的に順序づけられたビデオフレームとシャッフルされたビデオフレームから生成されたモデル出力を対比し、時間的に一貫性のある推論を明示的に好むように調整された、グローバルに正規化された報酬信号を導出する。
GRPOとGSPOを統合したTGPOは、コールドスタートRLトレーニングをサポートし、既存のMLLMで学習した空間的ショートカット動作を効果的に抑制する。
5つのエゴセントリックなビデオベンチマークの実験により、TGPOは時間的接地と因果コヒーレンスを一貫して改善し、以前のRLベースのビデオ推論手法よりも優れていることが示された。
以上の結果から,TGPOは時間的に堅牢なMLLMに対して,エゴセントリックなビデオ理解のためのシンプルでスケーラブルな経路を提供する可能性が示唆された。
関連論文リスト
- Reinforcing Structured Chain-of-Thought for Video Understanding [49.3086326382764]
概要駆動強化学習(SDRL)を紹介する。
SDRLは、Supervised Fine-Tuning (SFT)の必要性を回避したシングルステージのRLフレームワークである。
提案手法は、7つの公開ビデオQAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2026-03-26T22:11:14Z) - VideoZoomer: Reinforcement-Learned Temporal Focusing for Long Video Reasoning [49.35834435935727]
VideoZoomerは、MLLMが推論中に視覚的焦点を制御することができる新しいエージェントフレームワークである。
私たちの7Bモデルは、多種多様な複雑な推論パターンを提供し、幅広いビデオ理解と推論のベンチマークに強いパフォーマンスをもたらします。
これらの創発的な能力は、既存のオープンソースモデルを一貫して上回り、挑戦的なタスクでプロプライエタリなシステムをライバルにさえできる。
論文 参考訳(メタデータ) (2025-12-26T11:43:21Z) - Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - MUSEG: Reinforcing Video Temporal Understanding via Timestamp-Aware Multi-Segment Grounding [55.32878803528196]
ビデオの時間的理解は、マルチモーダルな大言語モデル(MLLM)において、ビデオ内のイベントを推論するために不可欠である。
タイムスタンプを意識したマルチセグメントグラウンドの導入により時間的理解を高める新しいRLに基づくMUSEGを提案する。
効果的な学習を容易にするため,段階的な報酬付きRL学習レシピを設計し,時間的根拠に基づく推論に向けてモデルを段階的に導く。
論文 参考訳(メタデータ) (2025-05-27T04:50:07Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - Self-alignment of Large Video Language Models with Refined Regularized Preference Optimization [45.55180760002661]
大規模ビデオ言語モデル(LVLM)は、微細な時間的理解と幻覚に苦慮し、単純なビデオ質問応答タスクでも単純な誤りを犯すことが多い。
本稿では,LVLMが自己の誤りから学習できる自己調整フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-16T13:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。