論文の概要: Maximum Entropy Hindsight Experience Replay
- arxiv url: http://arxiv.org/abs/2410.24016v1
- Date: Thu, 31 Oct 2024 15:18:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:00:59.340081
- Title: Maximum Entropy Hindsight Experience Replay
- Title(参考訳): 最大エントロピー近視体験リプレイ
- Authors: Douglas C. Crowder, Matthew L. Trappett, Darrien M. McKenzie, Frances S. Chance,
- Abstract要約: HERは、ゴールベースのPredator-Prey環境に対して、PPO(proximal policy optimization)のような、政治上のアルゴリズムを高速化できることを示す。
我々は,HERを原理的に選択的に適用することにより,従来のPPO-HERアルゴリズムを改善することができることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Hindsight experience replay (HER) is well-known to accelerate goal-based reinforcement learning (RL). While HER is generally applied to off-policy RL algorithms, we previously showed that HER can also accelerate on-policy algorithms, such as proximal policy optimization (PPO), for goal-based Predator-Prey environments. Here, we show that we can improve the previous PPO-HER algorithm by selectively applying HER in a principled manner.
- Abstract(参考訳): Hindsight Experience Replay (HER) はゴールベース強化学習(RL)を加速するためによく知られている。
HERは一般に非政治的RLアルゴリズムに適用されるが、我々は以前、HERがゴールベースのPredator-Prey環境に対して、PPO (Pximal Policy Optimization) などの政治上のアルゴリズムを高速化できることを示した。
本稿では,HERを原理的に選択的に適用することにより,従来のPPO-HERアルゴリズムを改善することができることを示す。
関連論文リスト
- Hindsight Experience Replay Accelerates Proximal Policy Optimization [0.0]
Hindsight Experience Replay(HER)は、スパース報酬を発行する環境に対する、政治外の強化学習アルゴリズムを加速する。
観測されたゴールのホック後の修正は、オン・ポリティクス・アルゴリズムの仮定に反するので、HERは通常、オン・ポリティクス・アルゴリズムには適用されない。
論文 参考訳(メタデータ) (2024-10-29T20:37:23Z) - Accelerated Preference Optimization for Large Language Model Alignment [60.22606527763201]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデル(LLM)を人間の好みに合わせるための重要なツールとして登場した。
直接選好最適化(DPO)は、報酬関数を明示的に見積もることなく、ポリシー最適化問題としてRLHFを定式化する。
本稿では,既存の最適化アルゴリズムを統一したAPO(Accelerated Preference Optimization)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T18:51:01Z) - Surpassing legacy approaches to PWR core reload optimization with single-objective Reinforcement learning [0.0]
単目的および多目的の最適化のための深層強化学習(DRL)に基づく手法を開発した。
本稿では、PPO(Proximal Policy Optimization)を用いて、RLに基づくアプローチの利点を実証する。
PPOは学習可能なウェイトを持つポリシーで検索機能を適応し、グローバル検索とローカル検索の両方として機能する。
論文 参考訳(メタデータ) (2024-02-16T19:35:58Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Decoupled Prioritized Resampling for Offline RL [120.49021589395005]
オフライン強化学習のためのオフライン優先体験再生(OPER)を提案する。
OPERは、高度に反転する遷移を優先するように設計された優先順位関数のクラスを備えており、トレーニング中により頻繁に訪問することができる。
優先順位関数のクラスは行動ポリシーの改善を誘導し、この改善されたポリシーに制約された場合、ポリシー制約付きオフラインRLアルゴリズムによりより良い解が得られる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-08T17:56:46Z) - Delay-Adapted Policy Optimization and Improved Regret for Adversarial
MDP with Delayed Bandit Feedback [10.957528713294874]
政策最適化は強化学習(RL)において最も一般的な手法の1つである
表型MDPにおけるPOに対する最寄りの後悔境界を初めて与え、最先端(効率の低い手法)を超越するかもしれない。
遅延適応PO(DAPO)は実装や一般化が容易であり、線形$Q$-関数の仮定の下で無限の状態空間に拡張することができ、関数近似による遅延フィードバックに対する最初の後悔境界を証明できる。
論文 参考訳(メタデータ) (2023-05-13T12:40:28Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - Offline RL Without Off-Policy Evaluation [49.11859771578969]
政治Qを用いた制約付き/規則化された政策改善の一段階を単に行うだけで、行動方針の予測が驚くほどうまく機能することを示す。
この1ステップのアルゴリズムは、D4RLベンチマークの大部分において、以前報告された反復アルゴリズムの結果を上回っている。
論文 参考訳(メタデータ) (2021-06-16T16:04:26Z) - Soft policy optimization using dual-track advantage estimator [5.4020749513539235]
本稿では, エントロピーを導入し, 温度係数を動的に設定し, 探索と利用の機会のバランスをとる。
本稿では、値関数の収束を加速し、さらにアルゴリズムの性能を高めるために、二トラック利便推定器(DTAE)を提案する。
ムジョコ環境における他のオンラインRLアルゴリズムと比較して,提案手法は累積回帰において最も高度な結果が得られる。
論文 参考訳(メタデータ) (2020-09-15T04:09:29Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。