Fugu-MT 論文翻訳(概要): Multi-Objective and Mixed-Reward Reinforcement Learning via Reward-Decorrelated Policy Optimization

論文の概要: Multi-Objective and Mixed-Reward Reinforcement Learning via Reward-Decorrelated Policy Optimization

arxiv url: http://arxiv.org/abs/2605.13641v1
Date: Wed, 13 May 2026 15:05:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-14 23:30:28.123985
Title: Multi-Objective and Mixed-Reward Reinforcement Learning via Reward-Decorrelated Policy Optimization
Title（参考訳）: Reward-Decorrelated Policy Optimization を用いた多目的・混合Reward強化学習
Authors: Yang Bai, Kaiyuan Liu, Ziyuan Zhuang, Jiahong Zhou, Rongxiang Weng, Xin Chen, Jingang Wang, Xunliang Cai,
Abstract要約: 複雑な強化学習環境は、しばしばマルチタスクとミックス・リワードの定式化を用いる。これらの設定では、不均一な報酬分布と相関する報酬次元がしばしばスカラーの利点の構築を不安定にする。本稿では,2つの障害モードを明示的に対象とする報酬処理手法であるReward-Decor Policy Optimization (RDPO)を提案する。
参考スコア（独自算出の注目度）: 40.52200753805172
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Complex reinforcement learning environments frequently employ multi-task and mixed-reward formulations. In these settings, heterogeneous reward distributions and correlated reward dimensions often destabilize the construction of scalar advantages. To address these challenges, we propose Reward-Decorrelated Policy Optimization (RDPO), a reward-processing method designed to explicitly target both failure modes. RDPO first utilizes Magnitude-Aware Quantile normalization to stabilize prompt-level advantage allocation across binary, fractional, and continuous rewards. It then applies Mahalanobis whitening within each active reward subspace to mitigate correlation redundancy prior to aggregation. When applied during the post-training of LongCat-Flash, RDPO enhances instruction following, writing quality, and robustness to hard prompts while remaining broadly competitive on reasoning and coding evaluations.
Abstract（参考訳）: 複雑な強化学習環境は、しばしばマルチタスクとミックス・リワードの定式化を用いる。これらの設定では、不均一な報酬分布と相関する報酬次元がしばしばスカラーの利点の構築を不安定にする。これらの課題に対処するために,両障害モードを明示的に対象とする報酬処理手法であるReward-Decorrelated Policy Optimization (RDPO)を提案する。 RDPOはまず、Magnitude-Aware Quantileの正規化を利用して、2進数、分数、連続的な報酬をまたいだプロンプトレベルの有利な割り当てを安定化する。次に、マハラノビスのホワイトニングを各アクティブな報酬部分空間に適用し、アグリゲーションの前に相関の冗長性を緩和する。 RDPOはLongCat-Flashのポストトレーニング中に適用された場合、命令の追従、書き込み品質、堅牢性をハードプロンプトに拡張する一方で、推論やコーディング評価に広く競合する。

関連論文リスト

Breaking $\textit{Winner-Takes-All}$: Cooperative Policy Optimization Improves Diverse LLM Reasoning [53.42577591449649]
グループ協力政策最適化は、トレーニングパラダイムをロールアウト競争からチーム協力へとシフトさせる。 GCPOは独立したロールアウトスコアをチームレベルのクレジット割り当てに置き換える。チームへの平均的な限界貢献に従って、各ロールアウトに対して、グループチームの報酬を再分配する。
論文参考訳（メタデータ） (2026-05-12T03:20:24Z)
Policy-based Tuning of Autoregressive Image Models with Instance- and Distribution-Level Rewards [16.135177543347773]
自己回帰モデル(AR)は画像生成に非常に効果的であるが、標準の最大形推定トレーニングではサンプルの品質と多様性を直接最適化することができない。本稿では,トークンベースのAR推論をマルコフ決定プロセスとして,グループ相対ポリシー最適化によって最適化した軽量なRLフレームワークを提案する。私たちの中核的な貢献は、新しい流通レベルのLeave-One-Out FID(LOO-FID)の報酬の導入です。
論文参考訳（メタデータ） (2026-03-24T11:28:36Z)
Tackling Length Inflation Without Trade-offs: Group Relative Reward Rescaling for Reinforcement Learning [74.5532558466687]
群 Relative Reward Rescaling (GR$3$) は、一般的な、連続かつ報酬に依存したゲーティング機構である。 GR$3$は、標準のGRPOに匹敵するトレーニングダイナミクスとダウンストリームのパフォーマンスを維持する。それは長さのインフレーションを著しく軽減し、最先端の長周期正規化ベースラインを上回ります。
論文参考訳（メタデータ） (2026-03-11T08:41:34Z)
MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文参考訳（メタデータ） (2026-01-12T05:02:48Z)
Enhancing Agentic RL with Progressive Reward Shaping and Value-based Sampling Policy Optimization [13.475938754147625]
Tool-Integrated Reasoning (TIR)で強化されたLarge Language Models (LLM)は、反復的に計画し、外部ツールを呼び、返却された情報を統合して、複雑な長期的推論タスクを解決する。エージェント強化学習(Agentic RL)は、ツール・インタラクションの完全な軌跡よりも、そのようなモデルを最適化する。 1)バイナリ0-1検証信号のようなスパースで非インストラクティブな報酬は、中間ステップの限られたガイダンスと緩やかな収束を与える。本稿では,PRS(Progressive Reward Shaping)とVSPO(Value-based Sampling Policy Optimization)の2つの補完手法を提案する。
論文参考訳（メタデータ） (2025-12-08T11:59:25Z)
Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents [28.145430029174577]
大規模言語モデル(LLM)ベースのエージェントは、外部環境と対話する能力を高めるために強化学習(RL)でますます訓練されている。既存のアプローチは通常、最終回答でのみ提供される結果に基づく報酬に依存します。本稿では,情報ゲインに基づくポリシー最適化(IGPO)を提案する。
論文参考訳（メタデータ） (2025-10-16T17:59:32Z)
Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文参考訳（メタデータ） (2025-09-23T16:15:42Z)
Redistributing Rewards Across Time and Agents for Multi-Agent Reinforcement Learning [14.852334980733369]
共用型マルチエージェント強化学習において、各エージェントの共用報酬への貢献を阻害する信用割り当ては重要な課題である。本稿では、この制約から信用モデリングを分離するアプローチであるTAR(Temporal-Agent Reward Redistribution)を導入する。本手法は,モデル精度によらず最適ポリシーが維持されることを保証するPBRSと等価であることを示す。
論文参考訳（メタデータ） (2025-02-07T12:07:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。