論文の概要: Seeing the Arrow of Time in Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2506.03340v1
- Date: Tue, 03 Jun 2025 19:32:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.028619
- Title: Seeing the Arrow of Time in Large Multimodal Models
- Title(参考訳): 大規模マルチモーダルモデルにおける時間差の観測
- Authors: Zihui Xue, Mi Luo, Kristen Grauman,
- Abstract要約: 現在の大規模マルチモーダルモデル(LMM)は、言語クエリに応答する際のビデオの時間方向の知覚と利用に苦慮している。
本稿では,強化学習(RL)に基づく学習戦略であるArrowRLを紹介する。
厳密な評価のために、時間的課題を探索する新しい多面的ベンチマークであるAoTBenchを開発する。
- 参考スコア(独自算出の注目度): 55.13176722268499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Arrow of Time (AoT)-time's irreversible flow shaping physical events-is fundamental to video comprehension, yet remains a significant challenge for modern large multimodal models (LMMs). Current LMMs struggle to perceive and utilize temporal directionality in video when responding to language queries, obstructing deeper temporal understanding. We tackle this deficiency by first providing a critical analysis of existing benchmarks and models. We then introduce ArrowRL, a reinforcement learning (RL)-based training strategy with an innovative reverse reward that instills AoT awareness by encouraging divergent video interpretations between forward and reversed visual frames. For rigorous evaluation, we additionally develop AoTBench, a new multi-faceted benchmark probing temporally challenging questions. Experiments show ArrowRL greatly advances temporal perception: it not only achieves substantial improvements on our challenging AoTBench but also demonstrably boosts performance on standard video question answering (VQA) benchmarks (with peak accuracy gains reaching over 20% and 10% respectively). This validates ArrowRL's effectiveness and highlights the critical need for dedicated AoT understanding in LMMs.
- Abstract(参考訳): アロー・オブ・タイム (AoT) 時の物理的事象を形作る不可逆フローは、ビデオ理解の基礎であるが、現代の大規模マルチモーダルモデル (LMM) にとって重要な課題である。
現在のLMMは、言語クエリに応答する際のビデオの時間方向の知覚と利用に苦慮し、時間的理解を妨げている。
まず、既存のベンチマークとモデルを批判的に分析することで、この欠陥に対処します。
次に,強化学習(RL)に基づくトレーニング戦略であるArrowRLを紹介し,前向きと逆向きの視覚フレーム間の異種ビデオ解釈を奨励することにより,AoTの認知を刺激する革新的な逆報酬を与える。
厳密な評価のために、時間的課題を探索する新しい多面的ベンチマークであるAoTBenchを開発する。
実験では、ArrowRLは時間的知覚を大幅に進歩させ、AoTBenchの挑戦に対して大幅な改善を達成できるだけでなく、標準ビデオ質問応答(VQA)ベンチマーク(それぞれ20%と10%のピーク精度向上)のパフォーマンスを実証的に向上させる。
これにより、ArrowRLの有効性が検証され、LMMにおける専用のAoT理解の必要性が強調される。
関連論文リスト
- MUSEG: Reinforcing Video Temporal Understanding via Timestamp-Aware Multi-Segment Grounding [55.32878803528196]
ビデオの時間的理解は、マルチモーダルな大言語モデル(MLLM)において、ビデオ内のイベントを推論するために不可欠である。
タイムスタンプを意識したマルチセグメントグラウンドの導入により時間的理解を高める新しいRLに基づくMUSEGを提案する。
効果的な学習を容易にするため,段階的な報酬付きRL学習レシピを設計し,時間的根拠に基づく推論に向けてモデルを段階的に導く。
論文 参考訳(メタデータ) (2025-05-27T04:50:07Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - Investigating and Enhancing the Robustness of Large Multimodal Models Against Temporal Inconsistency [59.05753942719665]
本稿では,モデルのロバスト性を評価するために,時間的ロバスト性ベンチマーク(TemRobBench)を提案する。
16のLMMを評価した結果,従来の知識やテキストの文脈に頼りすぎていることが判明した。
我々はパノラマ直接選好最適化(PanoDPO)を設計し、LMMが視覚的特徴と言語的特徴の両方を同時に取り入れることを奨励する。
論文 参考訳(メタデータ) (2025-05-20T14:18:56Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Time-R1: Post-Training Large Vision Language Model for Temporal Video Grounding [57.26400319795876]
時間的ビデオグラウンディング(TVG)は、長めのビデオ理解における中核的な課題である。
近年のLVLM(Large Vision-Language Models)は,教師付き微調整によるTVG処理の早期実現を示唆している。
強化学習によるLVLMの一般化能力を高める新しいポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-17T17:04:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。