論文の概要: ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning
- arxiv url: http://arxiv.org/abs/2510.00690v1
- Date: Wed, 01 Oct 2025 09:11:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.487745
- Title: ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning
- Title(参考訳): ACPO:複雑推論における視覚言語モデル調整のための適応的カリキュラムポリシー最適化
- Authors: Yunhao Wang, Ziting Li, Shuai Chen, Tao Liu, Chao Song, Junjie Jiang, Jian Zhu, Peng Gao, Bin Qin,
- Abstract要約: ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。
我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。
その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
- 参考スコア(独自算出の注目度): 17.928214942495412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning large-scale vision-language models (VLMs) for complex reasoning via reinforcement learning is often hampered by the limitations of existing policy optimization algorithms, such as static training schedules and the rigid, uniform clipping mechanism in Proximal Policy Optimization (PPO). In this work, we introduce Adaptive Curriculum Policy Optimization (ACPO), a novel framework that addresses these challenges through a dual-component adaptive learning strategy. First, ACPO employs a dynamic curriculum that orchestrates a principled transition from a stable, near on-policy exploration phase to an efficient, off-policy exploitation phase by progressively increasing sample reuse. Second, we propose an Advantage-Aware Adaptive Clipping (AAAC) mechanism that replaces the fixed clipping hyperparameter with dynamic, sample-wise bounds modulated by the normalized advantage of each token. This allows for more granular and robust policy updates, enabling larger gradients for high-potential samples while safeguarding against destructive ones. We conduct extensive experiments on a suite of challenging multimodal reasoning benchmarks, including MathVista, LogicVista, and MMMU-Pro. Results demonstrate that ACPO consistently outperforms strong baselines such as DAPO and PAPO, achieving state-of-the-art performance, accelerated convergence, and superior training stability.
- Abstract(参考訳): 強化学習による複雑な推論のための大規模視覚言語モデル(VLM)の調整は、静的トレーニングスケジュールやPPO(Porximal Policy Optimization)における厳密な一様クリッピング機構といった、既存のポリシー最適化アルゴリズムの制限によってしばしば妨げられる。
本稿では,2成分適応学習戦略を通じてこれらの課題に対処する新しいフレームワークである適応カリキュラムポリシー最適化(ACPO)を紹介する。
第一に、ACPOは、安定した、ほぼ政治上の探索段階から、サンプルの再利用を徐々に増加させ、効率的で非政治的な搾取段階へ、原則的に移行する動的なカリキュラムを採用している。
次に、固定クリッピングハイパーパラメータを各トークンの正規化により変調された動的標本幅境界に置き換えるAdvantage-Aware Adaptive Clipping (AAAC) 機構を提案する。
これにより、よりきめ細やかで堅牢なポリシー更新が可能になり、破壊的なものに対して保護しながら、高い電位サンプルの勾配を大きくすることができる。
我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。
その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
関連論文リスト
- Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - TCPO: Thought-Centric Preference Optimization for Effective Embodied Decision-making [75.29820290660065]
本稿では,効果的な具体的意思決定のための思考中心推論最適化(TCPO)を提案する。
モデルの中間的推論プロセスの整合性を強調し、モデル劣化の問題を緩和する。
ALFWorld環境での実験では、平均成功率は26.67%であり、RL4VLMよりも6%向上している。
論文 参考訳(メタデータ) (2025-09-10T11:16:21Z) - Improving DAPO from a Mixed-Policy Perspective [6.237966553429477]
本稿では,動的sAmpling Policy Optimization (DAPO)アルゴリズムに2つの新しい修正を加えている。
まず、政治以外の経験を提供するための、事前訓練された安定した指導方針を取り入れた手法を提案する。
次に、このアイデアを拡張してゼロ逆サンプルを再利用し、しばしば動的サンプリング戦略によって破棄される。
論文 参考訳(メタデータ) (2025-07-17T09:12:09Z) - Logarithmic Smoothing for Adaptive PAC-Bayesian Off-Policy Learning [4.48890356952206]
オフ政治学習は、ログ化された相互作用から最適なポリシーを学ぶための主要なフレームワークとなる。
我々はこのフレームワークをオンラインPAC-ベイジアン理論のツールを用いて適応シナリオに拡張する。
論文 参考訳(メタデータ) (2025-06-12T12:54:09Z) - On-Policy RL with Optimal Reward Baseline [109.47676554514193]
On-Policy RL with Optimal reward baseline (OPO) は、新しい簡易強化学習アルゴリズムである。
OPOは、訓練プロセスを実証的に安定化し、探索を強化する、正確なオンライントレーニングの重要性を強調している。
その結果、OPOの優れた性能と訓練安定性を、追加のモデルや正規化条件なしで示すことができた。
論文 参考訳(メタデータ) (2025-05-29T15:58:04Z) - AM-PPO: (Advantage) Alpha-Modulation with Proximal Policy Optimization [0.0]
本稿では、動的非線形スケーリング機構を用いて利点推定を適応的に変調するPPOの新たな拡張であるAdvantage Modulation PPO(AM-PPO)を紹介する。
AM-PPOは、勾配の更新を安定させ、方針勾配のランドスケープの条件付けを改善するために、利点信号を再確認する。
これらの知見は、強化学習最適化の強化に広く応用できる手法として、有利な変調の可能性を示している。
論文 参考訳(メタデータ) (2025-05-21T13:38:45Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。