Fugu-MT 論文翻訳(概要): DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning

論文の概要: DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning

arxiv url: http://arxiv.org/abs/2605.25604v1
Date: Mon, 25 May 2026 08:55:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:19.535775
Title: DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning
Title（参考訳）: DVAO:マルチリワード強化学習のための動的変数適応型アドバンテージ最適化
Authors: Guochao Jiang, Jingyi Song, Guofeng Quan, Chuzhan Hao, Guohua Liu, Yuewei Zhang,
Abstract要約: グループ相対ポリシー最適化は、プロキシポリシー最適化に代わる効率的で価値のない代替手段を提供する。 Reward CombinationやAdvantage Combinationのような標準的なスカラー化のプラクティスは、重大な欠点に悩まされている。本研究では,各目的の報酬分散に基づく組み合わせ重み付けを動的に調整する動的変数適応型アドバンテージ最適化(DVAO)を提案する。
参考スコア（独自算出の注目度）: 4.844785181175473
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement Learning has become a standard paradigm for aligning Large Language Models with human intent and task requirements. While Group Relative Policy Optimization offers an efficient, value-model-free alternative to Proximal Policy Optimization, adapting it to real-world multi-reward settings remains challenging. Standard scalarization practices, such as Reward Combination and Advantage Combination, suffer from significant drawbacks: Reward Combination frequently generates advantages with excessively large squared magnitudes that lead to training instability, while Advantage Combination relies on static hyperparameters and ignores cross-objective correlations. To address these limitations, we propose Dynamic Variance-adaptive Advantage Optimization (DVAO), which dynamically adjusts combination weights based on the empirical reward variance of each objective within a rollout group, effectively up-weighting objectives with a stronger learning signal while suppressing noisy ones. We mathematically prove that DVAO maintains bounded advantage magnitudes for stable training and introduces a self-adaptive cross-objective regularization mechanism. Extensive experiments on mathematical reasoning and tool-use benchmarks using Qwen3 and Qwen2.5 models demonstrate that DVAO significantly outperforms baseline methods, achieving a superior multi-objective Pareto frontier and robust training stability.
Abstract（参考訳）: 強化学習は、大規模言語モデルを人間の意図やタスク要求と整合させるための標準パラダイムとなっている。グループ相対政策最適化は、プロキシポリシー最適化に代わる効率的で価値のない代替手段を提供するが、現実のマルチリワード設定に適応することは依然として困難である。 Reward Combination"や"Advantage Combination"といった標準的なスカラー化のプラクティスは、大きな欠点を負う。 Reward Combinationは、トレーニングの不安定性につながる過大な2乗サイズのメリットをしばしば生み出す一方で、Advantage Combinationは静的なハイパーパラメータに依存し、オブジェクト間の相関を無視する。これらの制約に対処するために、ロールアウトグループ内の各目的の経験的報酬分散に基づいて組み合わせ重みを動的に調整し、ノイズを抑えつつ、より強い学習信号で効果的に重み付けを行う動的分散適応アドバンテージ最適化(DVAO)を提案する。我々は,DVAOが安定トレーニングのための有界優位度を維持していることを数学的に証明し,自己適応型クロスオブジェクト正規化機構を導入する。 Qwen3 と Qwen2.5 モデルを用いた数学的推論とツール利用のベンチマークに関する大規模な実験により、DVAO がベースライン法を著しく上回り、優れた多目的パレートフロンティアと堅牢なトレーニング安定性を達成することを示した。

論文の概要: DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning

関連論文リスト