Fugu-MT 論文翻訳(概要): Reward Scale Robustness for Proximal Policy Optimization via DreamerV3 Tricks

論文の概要: Reward Scale Robustness for Proximal Policy Optimization via DreamerV3 Tricks

arxiv url: http://arxiv.org/abs/2310.17805v1
Date: Thu, 26 Oct 2023 22:40:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-30 15:23:03.765635
Title: Reward Scale Robustness for Proximal Policy Optimization via DreamerV3 Tricks
Title（参考訳）: DreamerV3トリップによる近似政策最適化のための逆スケールロバストネス
Authors: Ryan Sullivan, Akarsh Kumar, Shengyi Huang, John P. Dickerson, Joseph Suarez
Abstract要約: この研究はDreamerV3のトリックをPPOに適用し、オリジナルの作品以外の実験的な研究としては初めてである。本稿では,Arcade Learning EnvironmentとDeepMind Control Suiteの合計1万時間以上のアブレーション研究について紹介する。これらのトリックによるPPOは、アタリゲーム上でPPOに比較可能であり、報奨クリッピングを伴わずにPPOを著しく上回る。
参考スコア（独自算出の注目度）: 27.64248367463575
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Most reinforcement learning methods rely heavily on dense, well-normalized environment rewards. DreamerV3 recently introduced a model-based method with a number of tricks that mitigate these limitations, achieving state-of-the-art on a wide range of benchmarks with a single set of hyperparameters. This result sparked discussion about the generality of the tricks, since they appear to be applicable to other reinforcement learning algorithms. Our work applies DreamerV3's tricks to PPO and is the first such empirical study outside of the original work. Surprisingly, we find that the tricks presented do not transfer as general improvements to PPO. We use a high quality PPO reference implementation and present extensive ablation studies totaling over 10,000 A100 hours on the Arcade Learning Environment and the DeepMind Control Suite. Though our experiments demonstrate that these tricks do not generally outperform PPO, we identify cases where they succeed and offer insight into the relationship between the implementation tricks. In particular, PPO with these tricks performs comparably to PPO on Atari games with reward clipping and significantly outperforms PPO without reward clipping.
Abstract（参考訳）: ほとんどの強化学習方法は、密集した正規化された環境報酬に大きく依存している。 DreamerV3は最近、これらの制限を緩和する多くのトリックを備えたモデルベースの手法を導入し、単一のハイパーパラメータのセットで幅広いベンチマークで最先端を達成した。この結果は、他の強化学習アルゴリズムに適用できるように見えるため、トリックの一般性に関する議論を引き起こした。私たちの研究はDreamerV3のトリックをPPOに適用し、オリジナルの作品以外では初めての実験的な研究です。驚くべきことに、提示されたトリックはPPOの一般的な改善として転送されない。我々は、高品質なPPO参照実装を使用し、Arcade Learning EnvironmentとDeepMind Control Suiteで合計10,000A100時間以上のアブレーション研究を行っている。実験の結果,これらの手法は一般的にPPOを上回りませんが,成功事例を特定し,実装手法の関係について考察する。特に、これらのトリックを持つPPOは、アタリゲーム上のPPOに対して、報酬クリッピングで比較可能であり、報酬クリッピングなしでPPOを著しく上回る。

関連論文リスト

Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
論文参考訳（メタデータ） (2025-07-08T23:22:34Z)
CPPO: Accelerating the Training of Group Relative Policy Optimization-Based Reasoning Models [68.26281707780761]
本稿では、推論モデルの学習を高速化するために、CPPO(Completion Pruning Policy Optimization)を提案する。 CPPOはGSM8Kで最大8.32タイム、Mathで3.51タイム、オリジナルのGRPOと比較して精度を保ったり、向上させたりすることができる。
論文参考訳（メタデータ） (2025-03-28T11:30:05Z)
DPO Meets PPO: Reinforced Token Optimization for RLHF [36.97894955691627]
マルコフ決定過程(MDP)としてRLHF問題をモデル化するフレームワークを導入する。このフレームワークでは、優先データからトークンワイド報酬関数を学習するReinforced Token Optimization(textttRTO)と呼ばれるアルゴリズムを導入する。実践的な実装として、texttRTOは、DPO(Direct Preference Optimization)とプロキシポリシー最適化(Proximal Policy Optimization)を革新的に統合している。
論文参考訳（メタデータ） (2024-04-29T17:58:30Z)
From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
我々は,ベルマン方程式を満たす一般逆Q-ラーニングアルゴリズムとして,トークンレベルMDPのDPOを導出できることを示す。本稿では,マルチターン対話における情報活用,推論,エージェント応用,マルチモデルシステムのエンドツーエンドトレーニングなど,我々の研究の応用について論じる。
論文参考訳（メタデータ） (2024-04-18T17:37:02Z)
Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study [16.99550556866219]
Reinforcement Learning from Human Feedback (RLHF) は現在、大きな言語モデル(LLM)を人間の好みに合わせるために最も広く使われている手法である。学術ベンチマークでは、最先端の結果は直接選好最適化(DPO)のような報酬のない手法によって達成されることが多い。 PPOは、あらゆるケースにおいて他のアライメント手法を超越し、挑戦的なコード競争において最先端の結果を得ることができることを示す。
論文参考訳（メタデータ） (2024-04-16T16:51:53Z)
A dynamical clipping approach with task feedback for Proximal Policy Optimization [29.855219523565786]
最適なPPOクリッピング境界がトレーニングプロセス全体を通して一貫していることの理論的証明はない。過去の研究は、PPOクリッピングバウンドを動的に調整し、PPOの性能を向上させることを目的としている。我々は、強化学習タスクの嗜好(最大回帰)をよりよく反映するために、Preference based Proximal Policy Optimization (Pb-PPO)を提案する。
論文参考訳（メタデータ） (2023-12-12T06:35:56Z)
You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。 ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文参考訳（メタデータ） (2022-01-31T20:26:56Z)
The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games [67.47961797770249]
マルチエージェントPPO(MAPPO)は、集中型値関数を採用するマルチエージェントPPOバリアントである。 MAPPOは,3つの一般的なマルチエージェントテストベッドにおいて,最先端技術に匹敵する性能を実現していることを示す。
論文参考訳（メタデータ） (2021-03-02T18:59:56Z)
On Proximal Policy Optimization's Heavy-tailed Gradients [150.08522793940708]
近位政策最適化による報酬関数の勾配の重み付き性質について検討した。本稿では,標準的なppoクリッピングの効果について検討し,グラデーションの重み付けを相殺する効果があることを示した。 3つのクリッピングトリックの代替として,高次元ロバストな推定器であるGMOMをPPOに組み込むことを提案する。
論文参考訳（メタデータ） (2021-02-20T05:51:28Z)
Provably Efficient Reward-Agnostic Navigation with Linear Value Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文参考訳（メタデータ） (2020-08-18T04:34:21Z)
DDPG++: Striving for Simplicity in Continuous-control Off-Policy Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文参考訳（メタデータ） (2020-06-26T20:21:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。