論文の概要: TOPPO: Rethinking PPO for Multi-Task Reinforcement Learning with Critic Balancing
- arxiv url: http://arxiv.org/abs/2605.11473v1
- Date: Tue, 12 May 2026 03:40:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.552138
- Title: TOPPO: Rethinking PPO for Multi-Task Reinforcement Learning with Critic Balancing
- Title(参考訳): TOPPO:批判的バランスによるマルチタスク強化学習のためのPPOの再考
- Authors: Yuanpeng Li, Gefei Lin, Annie Qu, Rui Miao,
- Abstract要約: タスク間の勾配条件付けと学習のバランスを改善するモジュールセットであるTOPPOを提案する。
TOPPOは、公表されたSACファミリーやARSファミリーのベースラインよりも、平均とテールタスクのパフォーマンスが向上する。
提案手法は, 適切な最適化により, MTRLの法外アプローチに対抗し, 越えることが可能であることを実証した。
- 参考スコア(独自算出の注目度): 1.9552387050709823
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Soft Actor-Critic (SAC) and its variants dominate Multi-Task Reinforcement Learning (MTRL) due to their off-policy sample efficiency, while on-policy methods such as Proximal Policy Optimization (PPO) remain underexplored. We diagnose that PPO in MTRL suffers from a previously overlooked issue: critic-side gradient ill-conditioning, which may cause tail tasks to stall while easy tasks dominate the value function's updates. To address this, we propose TOPPO (Tail-Optimized PPO), a reformulation of PPO via Critic Balancing -- a set of modules that improve gradient conditioning and balance learning dynamics across tasks. Unlike prior approaches that rely on modular architectures or large models, TOPPO targets the optimization bottleneck within PPO itself. Empirically, TOPPO achieves stronger mean and tail-task performance than published SAC-family and ARS-family baselines while using substantially fewer parameters and environment steps on Meta-World+ benchmark. Notably, TOPPO matches or surpasses strong SAC baselines early in training and maintains superior performance at full budget. Ablations confirm the effectiveness of each module in TOPPO and provide insights into their interactions. Our results demonstrate that, with proper optimization, on-policy methods can rival or exceed off-policy approaches in MTRL, challenging the prevailing reliance on SAC and highlighting critic-side gradient conditioning as the central bottleneck.
- Abstract(参考訳): SAC(Soft Actor-Critic)とその変種は、非政治的なサンプル効率のためにMTRL(Multi-Task Reinforcement Learning)を支配し、一方、PPO(Proximal Policy Optimization)のようなオン・ポリティクスの手法はいまだ検討されていない。
我々は、MTRLのPPOが以前見過ごされた問題に悩まされていることを診断する: 批判側勾配条件; テールタスクが停止し、簡単なタスクがバリュー関数の更新を支配している可能性がある。
そこで本研究では,PPOの最適化であるTOPPO(Tail-Optimized PPO)を提案する。
モジュールアーキテクチャや大規模モデルに依存する従来のアプローチとは異なり、TOPPOはPPO自体の最適化ボトルネックを目標としています。
実証的には、TOPPOは、Meta-World+ベンチマークのパラメータと環境ステップをはるかに少なくしながら、発行されたSACファミリーやARSファミリーのベースラインよりも、平均とテールタスクのパフォーマンスを向上する。
特に、TOPPOはトレーニングの初期段階で強力なSACベースラインと一致または超え、フル予算で優れたパフォーマンスを維持する。
アブレーションはTOPPOにおける各モジュールの有効性を確認し、それらの相互作用に関する洞察を提供する。
提案手法は, 適切な最適化により, MTRLの非政治的アプローチに対抗し, SACへの依存に挑戦し, 批判側勾配条件を中心的ボトルネックとして強調できることを示した。
関連論文リスト
- Bounded Ratio Reinforcement Learning [62.09379476369526]
本稿では,BRRL(Bunded Ratio Reinforcement Learning)フレームワークを導入し,都市部における強化学習の課題を解決する。
本稿では,BRRL の最適化手法であるBunded Policy Optimization (BPO) を開発した。
特に,我々のフレームワークは,PPO損失の成功を解釈する新たな理論レンズを提供し,信頼領域政策最適化とクロスエントロピー法(CEM)を接続する。
論文 参考訳(メタデータ) (2026-04-20T17:59:01Z) - RePO: Bridging On-Policy Learning and Off-Policy Knowledge through Rephrasing Policy Optimization [40.41228010377401]
本稿では、政治外の知識と政治上のRLの安定性を両立させるためのリフレージング・ポリシー・オプティマイズ(RePO)を提案する。
RePOは、独自のスタイリスティックでパラメトリックな分布に適合する軌跡に、政治外の知識を言い換える。
いくつかのベンチマークの実験では、RePOがハードサンプルの利用を改善し、既存のベースラインを上回っていることが示されている。
論文 参考訳(メタデータ) (2026-02-11T13:02:40Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - On-Policy RL with Optimal Reward Baseline [109.47676554514193]
On-Policy RL with Optimal reward baseline (OPO) は、新しい簡易強化学習アルゴリズムである。
OPOは、訓練プロセスを実証的に安定化し、探索を強化する、正確なオンライントレーニングの重要性を強調している。
その結果、OPOの優れた性能と訓練安定性を、追加のモデルや正規化条件なしで示すことができた。
論文 参考訳(メタデータ) (2025-05-29T15:58:04Z) - A dynamical clipping approach with task feedback for Proximal Policy Optimization [29.855219523565786]
最適なPPOクリッピング境界がトレーニングプロセス全体を通して一貫していることの理論的証明はない。
過去の研究は、PPOクリッピングバウンドを動的に調整し、PPOの性能を向上させることを目的としている。
我々は、強化学習タスクの嗜好(最大回帰)をよりよく反映するために、Preference based Proximal Policy Optimization (Pb-PPO)を提案する。
論文 参考訳(メタデータ) (2023-12-12T06:35:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。