論文の概要: Perception-Aware Policy Optimization for Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2507.06448v3
- Date: Thu, 31 Jul 2025 17:54:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 15:10:45.132942
- Title: Perception-Aware Policy Optimization for Multimodal Reasoning
- Title(参考訳): マルチモーダル推論のための知覚型ポリシー最適化
- Authors: Zhenhailong Wang, Xuehang Guo, Sofia Stoica, Haiyang Xu, Hongru Wang, Hyeonjeong Ha, Xiusi Chen, Yangyi Chen, Ming Yan, Fei Huang, Heng Ji,
- Abstract要約: 現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。
提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。
知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
- 参考スコア(独自算出の注目度): 79.56070395437898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has proven to be a highly effective strategy for endowing Large Language Models (LLMs) with robust multi-step reasoning abilities. However, its design and optimizations remain tailored to purely textual domains, resulting in suboptimal performance when applied to multimodal reasoning tasks. In particular, we observe that a major source of error in current multimodal reasoning lies in the perception of visual inputs. To address this bottleneck, we propose PAPO, a novel policy gradient algorithm that encourages the model to learn to perceive while learning to reason. Specifically, we introduce the Implicit Perception Loss in the form of a KL divergence term, which can be seamlessly plugged into mainstream RLVR algorithms such as GRPO and DAPO. Notably, PAPO does not rely on additional data curation, reward models, or stronger teacher models. To further enhance the training stability of PAPO, we introduce the Double Entropy Loss, which effectively regularizes the new KL objective without compromising performance. Despite its simplicity, PAPO yields significant overall improvements of 4.4%-17.5% on diverse multimodal benchmarks. The improvements are more pronounced, approaching 8.0%-19.1%, on tasks with high vision dependency. We also observe a substantial reduction of 30.5% in perception errors, indicating improved perceptual capabilities with PAPO. Overall, our work introduces a deeper integration of perception-aware supervision into core learning objectives and lays the groundwork for a new RL framework that encourages visually grounded reasoning. Code and data will be made publicly available for research purposes. Project page: https://mikewangwzhl.github.io/PAPO.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は,多段階推論能力を持つ大規模言語モデル(LLM)を実現する上で,極めて効果的な戦略であることが証明されている。
しかし、その設計と最適化は、純粋にテキストの領域に合わせたままであり、マルチモーダル推論タスクに適用した場合、最適以下の性能が得られる。
特に,現在のマルチモーダル推論における誤差の主な原因は,視覚入力の知覚にある。
このボトルネックに対処するため、我々はPAPOを提案する。PAPOは、モデルが推論を学習しながら知覚することを促進する新しいポリシー勾配アルゴリズムである。
具体的には、GRPOやDAPOなどの主流RLVRアルゴリズムにシームレスに接続できるKL発散項の形でImplicit Perception Lossを導入する。
特にPAPOは、追加のデータキュレーション、報酬モデル、より強力な教師モデルに依存していない。
PAPOのトレーニング安定性をさらに向上するため,新たなKL目標を効率よく調整するDouble Entropy Lossを導入する。
その単純さにもかかわらず、PAPOは様々なマルチモーダルベンチマークにおいて4.4%-17.5%の大幅な全体的な改善をもたらす。
視力依存性の高いタスクでは8.0%-19.1%に近づいた。
また,知覚誤りを30.5%減少させ,PAPOによる知覚能力の向上を示唆した。
全体として、私たちの研究は、知覚認識の監視をコア学習の目的に深く統合し、視覚的に基礎付けられた推論を促進する新しいRLフレームワークの基礎を築き上げています。
コードとデータは研究目的で公開されます。
プロジェクトページ: https://mikewangwzhl.github.io/PAPO。
関連論文リスト
- ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - AdPO: Enhancing the Adversarial Robustness of Large Vision-Language Models with Preference Optimization [11.381262184752234]
本稿では,優先最適化に基づくLVLMの新たな敵防衛戦略であるAdPOを提案する。
提案手法は, クリーンな入力に対して正規出力を生成するためのモデルの嗜好を高めることを目的として, 優先最適化問題として, 対人訓練を再構成するものである。
より小さなLVLMのトレーニングは,ベースライン法に匹敵する効率を維持しつつ,競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2025-04-02T13:43:21Z) - Enhancing LLM Reasoning with Iterative DPO: A Comprehensive Empirical Investigation [29.579349371114702]
DPO(Direct Preference Optimization)は、大規模言語モデル(LLM)のための強化学習(RL)に代わる費用効率の良い代替手段である。
粗いフィルタ付き1ラウンドのDPOが数学的推論性能を大幅に向上させることを示す。
単純な検証可能な報奨により,計算オーバーヘッドを大幅に低減したRLレベルの性能を実現する。
論文 参考訳(メタデータ) (2025-03-17T06:28:25Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - 3D-Properties: Identifying Challenges in DPO and Charting a Path Forward [17.27880657597116]
我々はDPOを再考し、その理論的基礎と経験的性能を分析した。
DPOの学習過程から生じる3つの重要な特性、いわゆる3D特性を同定する。
トレーニングの安定性と性能を向上させるための簡単な正規化手法を提案する。
論文 参考訳(メタデータ) (2024-06-11T14:59:24Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。