論文の概要: DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.25604v1
- Date: Mon, 25 May 2026 08:55:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.535775
- Title: DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning
- Title(参考訳): DVAO:マルチリワード強化学習のための動的変数適応型アドバンテージ最適化
- Authors: Guochao Jiang, Jingyi Song, Guofeng Quan, Chuzhan Hao, Guohua Liu, Yuewei Zhang,
- Abstract要約: グループ相対ポリシー最適化は、プロキシポリシー最適化に代わる効率的で価値のない代替手段を提供する。
Reward CombinationやAdvantage Combinationのような標準的なスカラー化のプラクティスは、重大な欠点に悩まされている。
本研究では,各目的の報酬分散に基づく組み合わせ重み付けを動的に調整する動的変数適応型アドバンテージ最適化(DVAO)を提案する。
- 参考スコア(独自算出の注目度): 4.844785181175473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning has become a standard paradigm for aligning Large Language Models with human intent and task requirements. While Group Relative Policy Optimization offers an efficient, value-model-free alternative to Proximal Policy Optimization, adapting it to real-world multi-reward settings remains challenging. Standard scalarization practices, such as Reward Combination and Advantage Combination, suffer from significant drawbacks: Reward Combination frequently generates advantages with excessively large squared magnitudes that lead to training instability, while Advantage Combination relies on static hyperparameters and ignores cross-objective correlations. To address these limitations, we propose Dynamic Variance-adaptive Advantage Optimization (DVAO), which dynamically adjusts combination weights based on the empirical reward variance of each objective within a rollout group, effectively up-weighting objectives with a stronger learning signal while suppressing noisy ones. We mathematically prove that DVAO maintains bounded advantage magnitudes for stable training and introduces a self-adaptive cross-objective regularization mechanism. Extensive experiments on mathematical reasoning and tool-use benchmarks using Qwen3 and Qwen2.5 models demonstrate that DVAO significantly outperforms baseline methods, achieving a superior multi-objective Pareto frontier and robust training stability.
- Abstract(参考訳): 強化学習は、大規模言語モデルを人間の意図やタスク要求と整合させるための標準パラダイムとなっている。
グループ相対政策最適化は、プロキシポリシー最適化に代わる効率的で価値のない代替手段を提供するが、現実のマルチリワード設定に適応することは依然として困難である。
Reward Combination"や"Advantage Combination"といった標準的なスカラー化のプラクティスは、大きな欠点を負う。 Reward Combinationは、トレーニングの不安定性につながる過大な2乗サイズのメリットをしばしば生み出す一方で、Advantage Combinationは静的なハイパーパラメータに依存し、オブジェクト間の相関を無視する。
これらの制約に対処するために、ロールアウトグループ内の各目的の経験的報酬分散に基づいて組み合わせ重みを動的に調整し、ノイズを抑えつつ、より強い学習信号で効果的に重み付けを行う動的分散適応アドバンテージ最適化(DVAO)を提案する。
我々は,DVAOが安定トレーニングのための有界優位度を維持していることを数学的に証明し,自己適応型クロスオブジェクト正規化機構を導入する。
Qwen3 と Qwen2.5 モデルを用いた数学的推論とツール利用のベンチマークに関する大規模な実験により、DVAO がベースライン法を著しく上回り、優れた多目的パレートフロンティアと堅牢なトレーニング安定性を達成することを示した。
関連論文リスト
- Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。
我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。
その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-01T09:11:27Z) - Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting [48.87957020168614]
マルチリワード学習における以前の研究は、通常、固定重み付き線形スカラー化を使用しており、効果的なオンライン学習を捉えることができない。
目的整合性を高めるための2つのアプローチ、オンライン学習のためのもの、宇宙探査のためのものを紹介する。
論文 参考訳(メタデータ) (2025-09-14T21:56:35Z) - MPO: An Efficient Post-Processing Framework for Mixing Diverse Preference Alignment [14.541973333460149]
Mixing Preference Optimization (MPO)は、単一目的ポリシーを集約するための後処理フレームワークである。
MPOは様々な好みにまたがるバランスの取れた性能を実現し、計算コストを大幅に削減した既存モデルより優れている。
論文 参考訳(メタデータ) (2025-02-25T23:22:12Z) - Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment [46.44464839353993]
リワード・イン・コンテキスト(Rewards-in-Context, RiC)を導入する。
RiCは単一のファンデーションモデルの教師付き微調整のみを必要とし、推論時間中にユーザの好みを動的に調整する。
論文 参考訳(メタデータ) (2024-02-15T18:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。