論文の概要: Perception-Aware Policy Optimization for Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2507.06448v1
- Date: Tue, 08 Jul 2025 23:22:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.416682
- Title: Perception-Aware Policy Optimization for Multimodal Reasoning
- Title(参考訳): マルチモーダル推論のための知覚型ポリシー最適化
- Authors: Zhenhailong Wang, Xuehang Guo, Sofia Stoica, Haiyang Xu, Hongru Wang, Hyeonjeong Ha, Xiusi Chen, Yangyi Chen, Ming Yan, Fei Huang, Heng Ji,
- Abstract要約: 現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。
このボトルネックに対処するため、我々はパーセプション・アウェア・ポリシー最適化(PAPO)を提案する。
PAPOはモデルに対して、完全に内部の監視信号から、推論を学習しながら知覚することを学ぶことを奨励する。
- 参考スコア(独自算出の注目度): 79.56070395437898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has proven to be a highly effective strategy for endowing Large Language Models (LLMs) with robust multi-step reasoning abilities. However, its design and optimizations remain tailored to purely textual domains, resulting in suboptimal performance when applied to multimodal reasoning tasks. In particular, we observe that a major source of error in current multimodal reasoning lies in the perception of visual inputs. To address this bottleneck, we propose Perception-Aware Policy Optimization (PAPO), a simple yet effective extension of GRPO that encourages the model to learn to perceive while learning to reason, entirely from internal supervision signals. Notably, PAPO does not rely on additional data curation, external reward models, or proprietary models. Specifically, we introduce the Implicit Perception Loss in the form of a KL divergence term to the GRPO objective, which, despite its simplicity, yields significant overall improvements (4.4%) on diverse multimodal benchmarks. The improvements are more pronounced, approaching 8.0%, on tasks with high vision dependency. We also observe a substantial reduction (30.5%) in perception errors, indicating improved perceptual capabilities with PAPO. We conduct comprehensive analysis of PAPO and identify a unique loss hacking issue, which we rigorously analyze and mitigate through a Double Entropy Loss. Overall, our work introduces a deeper integration of perception-aware supervision into RLVR learning objectives and lays the groundwork for a new RL framework that encourages visually grounded reasoning. Project page: https://mikewangwzhl.github.io/PAPO.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は,多段階推論能力を持つ大規模言語モデル(LLM)を実現する上で,極めて効果的な戦略であることが証明されている。
しかし、その設計と最適化は、純粋にテキストの領域に合わせたままであり、マルチモーダル推論タスクに適用した場合、最適以下の性能が得られる。
特に,現在のマルチモーダル推論における誤差の主な原因は,視覚入力の知覚にある。
このボトルネックに対処するため、我々はGRPOのシンプルかつ効果的な拡張であるパーセプション・アウェア・ポリシー・最適化(PAPO)を提案する。
特にPAPOは、追加のデータキュレーション、外部報酬モデル、プロプライエタリモデルに依存していない。
具体的には、Implicit Perception Loss を KL の発散項の形で GRPO の目的に導入し、その単純さにもかかわらず、多様なマルチモーダルベンチマークにおいて、大幅な全体的な改善(4.4%)をもたらす。
高い視力依存のタスクでは8.0%に近づき、改善はより顕著である。
また,知覚誤りが30.5%減少し,PAPOによる知覚能力の向上が示唆された。
我々はPAPOの包括的分析を行い、二重エントロピー損失を通して厳密に分析・緩和するユニークな損失ハッキング問題を特定する。
全体として、我々の研究はRLVR学習の目標に知覚認識の監督を深く統合し、視覚的に基礎付けられた推論を促進する新しいRLフレームワークの基礎を築き上げている。
プロジェクトページ: https://mikewangwzhl.github.io/PAPO。
関連論文リスト
- ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - AdPO: Enhancing the Adversarial Robustness of Large Vision-Language Models with Preference Optimization [11.381262184752234]
本稿では,優先最適化に基づくLVLMの新たな敵防衛戦略であるAdPOを提案する。
提案手法は, クリーンな入力に対して正規出力を生成するためのモデルの嗜好を高めることを目的として, 優先最適化問題として, 対人訓練を再構成するものである。
より小さなLVLMのトレーニングは,ベースライン法に匹敵する効率を維持しつつ,競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2025-04-02T13:43:21Z) - Enhancing LLM Reasoning with Iterative DPO: A Comprehensive Empirical Investigation [29.579349371114702]
DPO(Direct Preference Optimization)は、大規模言語モデル(LLM)のための強化学習(RL)に代わる費用効率の良い代替手段である。
粗いフィルタ付き1ラウンドのDPOが数学的推論性能を大幅に向上させることを示す。
単純な検証可能な報奨により,計算オーバーヘッドを大幅に低減したRLレベルの性能を実現する。
論文 参考訳(メタデータ) (2025-03-17T06:28:25Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - 3D-Properties: Identifying Challenges in DPO and Charting a Path Forward [17.27880657597116]
我々はDPOを再考し、その理論的基礎と経験的性能を分析した。
DPOの学習過程から生じる3つの重要な特性、いわゆる3D特性を同定する。
トレーニングの安定性と性能を向上させるための簡単な正規化手法を提案する。
論文 参考訳(メタデータ) (2024-06-11T14:59:24Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。