論文の概要: Polychromic Objectives for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.25424v1
- Date: Mon, 29 Sep 2025 19:32:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.288269
- Title: Polychromic Objectives for Reinforcement Learning
- Title(参考訳): 強化学習のための多色的目的
- Authors: Jubayer Ibn Hamid, Ifdita Hasan Orney, Ellen Xu, Chelsea Finn, Dorsa Sadigh,
- Abstract要約: 強化学習微調整(Reinforcement Learning fine-tuning, RLFT)は、下流タスクの事前訓練されたポリシーを改善するための主要なパラダイムである。
多様な世代の探索・改良を明示的に実施する政策手法の目的について紹介する。
この目的を最適化するために、PPO(Pximal Policy Optimization)をどのように適用できるかを示す。
- 参考スコア(独自算出の注目度): 63.37185057794815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning fine-tuning (RLFT) is a dominant paradigm for improving pretrained policies for downstream tasks. These pretrained policies, trained on large datasets, produce generations with a broad range of promising but unrefined behaviors. Often, a critical failure mode of RLFT arises when policies lose this diversity and collapse into a handful of easily exploitable outputs. This convergence hinders exploration, which is essential for expanding the capabilities of the pretrained policy and for amplifying the benefits of test-time compute scaling. To address this, we introduce an objective for policy gradient methods that explicitly enforces the exploration and refinement of diverse generations, which we call a polychromic objective. We then show how proximal policy optimization (PPO) can be adapted to optimize this objective. Our method (1) employs vine sampling to collect on-policy rollouts and (2) modifies the advantage function to reflect the advantage under our new objective. Experiments on BabyAI, Minigrid, and Algorithmic Creativity show that our method improves success rates by reliably solving a larger set of environment configurations and generalizes better under large perturbations. Moreover, when given multiple attempts in pass@$k$ experiments, the policy achieves substantially higher coverage, demonstrating its ability to maintain and exploit a diverse repertoire of strategies.
- Abstract(参考訳): 強化学習微調整(Reinforcement Learning fine-tuning, RLFT)は、下流タスクの事前訓練されたポリシーを改善するための主要なパラダイムである。
これらの事前訓練されたポリシーは、大規模なデータセットに基づいてトレーニングされ、幅広い有望だが未解決な振る舞いで世代を生成する。
RLFTの致命的な失敗モードは、ポリシーがこの多様性を失い、簡単に利用可能なアウトプットに崩壊したときに生じることが多い。
この収束は、事前訓練されたポリシーの能力を拡大し、テストタイムの計算スケーリングの利点を増幅するために不可欠な探索を妨げる。
そこで本研究では,多種多様な世代を探索・改良することを明確に強制する政策勾配手法の目的について紹介し,その目的を多色的目的と呼ぶ。
次に、この目的を最適化するために、PPO(Phyximal Policy Optimization)をどのように適用できるかを示す。
本手法では,本手法では,<sup>1</sup> の有効性を反映するために,<sup>2</sup>,<sup>1</sup>,<sup>2</sup>,<sup>2</sup>,<sup>2</sup>,<sup>2</sup>,<sup>2</sup>,<sup>2</sup>,<sup>2</sup>,<sup>2</sup>,<sup>2</sup>,<sup>2</sup>,<sup>2</sup>,<sup>2</sup>,<sup>2</sup>,<sup
BabyAI, Minigrid, Algorithmic Creativity の実験では, 環境構成の大規模化を確実に解決し, 大きな摂動下での一般化により, 成功率の向上が図られている。
さらに、pass@k$実験で複数の試みがなされると、このポリシーは極めて高いカバレッジを達成し、さまざまな戦略のレパートリーを維持し、活用する能力を示す。
関連論文リスト
- Improving DAPO from a Mixed-Policy Perspective [6.237966553429477]
本稿では,動的sAmpling Policy Optimization (DAPO)アルゴリズムに2つの新しい修正を加えている。
まず、政治以外の経験を提供するための、事前訓練された安定した指導方針を取り入れた手法を提案する。
次に、このアイデアを拡張してゼロ逆サンプルを再利用し、しばしば動的サンプリング戦略によって破棄される。
論文 参考訳(メタデータ) (2025-07-17T09:12:09Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。
本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。
PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文 参考訳(メタデータ) (2023-11-10T03:02:49Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。