論文の概要: AVATAR: Reinforcement Learning to See, Hear, and Reason Over Video
- arxiv url: http://arxiv.org/abs/2508.03100v1
- Date: Tue, 05 Aug 2025 05:25:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.793324
- Title: AVATAR: Reinforcement Learning to See, Hear, and Reason Over Video
- Title(参考訳): AVATAR:ビデオの視聴、聴取、推論のための強化学習
- Authors: Yogesh Kulkarni, Pooyan Fazli,
- Abstract要約: AVATAR(Audio-Video Agent for Alignment and Reasoning, AVATAR)は,長時間ビデオの多時間推論を改善するフレームワークである。
AVATARは様々なベンチマークで高い性能を示し、サンプル効率は35%以上向上した。
- 参考スコア(独自算出の注目度): 0.6854849895338531
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal reasoning over long-horizon video is challenging due to the need for precise spatiotemporal fusion and alignment across modalities. While recent methods such as Group Relative Policy Optimization (GRPO) have shown promise in this domain, they suffer from three key limitations: (1) data inefficiency from their on-policy design, (2) a vanishing advantage problem, where identical or near-identical rewards within a group eliminate the learning signal by producing zero-valued advantages, and (3) uniform credit assignment that fails to emphasize critical reasoning steps. We introduce AVATAR (Audio-Video Agent for Alignment and Reasoning), a framework that addresses these limitations through two core components: (1) an off-policy training architecture that improves sample efficiency and resolves vanishing advantages by reusing past experiences with greater reward diversity, and (2) Temporal Advantage Shaping (TAS), a novel credit assignment strategy that upweights key reasoning phases during learning. AVATAR achieves strong performance across various benchmarks, outperforming the Qwen2.5-Omni baseline by +5.4on MMVU, +4.9 on OmniBench, and +4.5 on Video-Holmes, while demonstrating over 35% higher sample efficiency.
- Abstract(参考訳): 長期ビデオに対するマルチモーダル推論は、正確な時空間融合とモダリティ間のアライメントの必要性から困難である。
グループ相対的政策最適化(GRPO)のような近年の手法は、この領域における有望性を示しているが、(1) 企業内設計におけるデータ非効率性、(2) グループ内の同一またはほぼ同一の報酬がゼロ値の利点を生み出すことによって学習信号を排除している、(3) 批判的推論ステップを強調できない一様信用割当の3つの重要な制限を被っている。
AVATAR(Audio-Video Agent for Alignment and Reasoning, AVATAR, AVATAR, AVATAR, AVATAR, AVATAR, AVATAR, AVATAR, AVATAR: Audio-Video Agent for Alignment and Reasoning, AVATAR, AVATAR, AVATAR, AVATAR, AVATAR, AVATAR, AVATAR, AVATAR, AVATAR, AVATAR, AVATAR, AVATAR, AVATAR, AVATAR, AVATAR, AVATAR, AVATAR, AVATAR, AVATAR)は、2つのコアコンポーネントでこれらの制約に対処するフレームワークである。
AVATARは様々なベンチマークで高い性能を達成し、Qwen2.5-Omniベースラインを+5.4on MMVU、+4.9はOmniBench、+4.5はVideo-Holmesで、サンプル効率は35%以上向上した。
関連論文リスト
- Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。
提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。
知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:22:34Z) - CAVALRY-V: A Large-Scale Generator Framework for Adversarial Attacks on Video MLLMs [13.238196682784562]
CAVALRY-V (Cross-modal Language-Vision Adversarial Yielding for Videos) は,大規模言語モデルにおける視覚知覚と言語生成のクリティカルインターフェースをターゲットとした,新しいフレームワークである。
我々のフレームワークは、明示的な正規化ではなく、暗黙の時間的コヒーレンスモデリングによって柔軟性を達成し、画像理解においても大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-07-01T14:48:27Z) - Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models [30.7855782696894]
VLA(Vision-Language-Action)モデルは、自然言語による汎用ロボット制御の強力なパラダイムとして登場した。
VLAモデルにおけるアクション再利用を可能にする最初のトレーニングフリーかつプラグアンドプレイアクセラレーションフレームワークであるFlashVLAを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:47:18Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models [69.68265487134686]
Video SimpleQAは、LVLMの事実性評価に適した最初の総合的なベンチマークである。
私たちの研究は、以下の重要な機能を通じて、既存のビデオベンチマークと区別します。
答えは、簡潔なフォーマットで曖昧で決定的に正しいものとして作成されます。
論文 参考訳(メタデータ) (2025-03-24T17:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。