論文の概要: Soft policy optimization using dual-track advantage estimator
- arxiv url: http://arxiv.org/abs/2009.06858v1
- Date: Tue, 15 Sep 2020 04:09:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 05:30:11.149712
- Title: Soft policy optimization using dual-track advantage estimator
- Title(参考訳): dual-track advantage estimatorを用いたソフトポリシー最適化
- Authors: Yubo Huang, Xuechun Wang, Luobao Zou, Zhiwei Zhuang, Weidong Zhang
- Abstract要約: 本稿では, エントロピーを導入し, 温度係数を動的に設定し, 探索と利用の機会のバランスをとる。
本稿では、値関数の収束を加速し、さらにアルゴリズムの性能を高めるために、二トラック利便推定器(DTAE)を提案する。
ムジョコ環境における他のオンラインRLアルゴリズムと比較して,提案手法は累積回帰において最も高度な結果が得られる。
- 参考スコア(独自算出の注目度): 5.4020749513539235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning (RL), we always expect the agent to explore as many
states as possible in the initial stage of training and exploit the explored
information in the subsequent stage to discover the most returnable trajectory.
Based on this principle, in this paper, we soften the proximal policy
optimization by introducing the entropy and dynamically setting the temperature
coefficient to balance the opportunity of exploration and exploitation. While
maximizing the expected reward, the agent will also seek other trajectories to
avoid the local optimal policy. Nevertheless, the increase of randomness
induced by entropy will reduce the train speed in the early stage. Integrating
the temporal-difference (TD) method and the general advantage estimator (GAE),
we propose the dual-track advantage estimator (DTAE) to accelerate the
convergence of value functions and further enhance the performance of the
algorithm. Compared with other on-policy RL algorithms on the Mujoco
environment, the proposed method not only significantly speeds up the training
but also achieves the most advanced results in cumulative return.
- Abstract(参考訳): 強化学習(RL)において、エージェントはトレーニングの初期段階で可能な限り多くの状態を探索し、その後の段階で探索された情報を利用して最も回復可能な軌道を発見することを常に期待する。
本稿では,エントロピーを導入し,探索と搾取の機会のバランスをとるために温度係数を動的に設定することにより,近位政策の最適化を軟化する。
期待される報酬を最大化しながら、エージェントは局所最適政策を避けるために他の軌道も探す。
それにもかかわらず、エントロピーによって引き起こされるランダム性の増加は、初期の列車速度を減少させる。
時間差分法 (TD) とGAE (General advantage estimator) を統合することで,値関数の収束を加速し,アルゴリズムの性能をさらに向上する二トラック利得推定器 (DTAE) を提案する。
mujoco環境における他のオンポリシーrlアルゴリズムと比較すると,提案手法はトレーニングを高速化するだけでなく,累積帰納法において最も高度な結果を得る。
関連論文リスト
- Accelerated Preference Optimization for Large Language Model Alignment [60.22606527763201]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデル(LLM)を人間の好みに合わせるための重要なツールとして登場した。
直接選好最適化(DPO)は、報酬関数を明示的に見積もることなく、ポリシー最適化問題としてRLHFを定式化する。
本稿では,既存の最適化アルゴリズムを統一したAPO(Accelerated Preference Optimization)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T18:51:01Z) - Fast Two-Time-Scale Stochastic Gradient Method with Applications in Reinforcement Learning [5.325297567945828]
本稿では,従来の手法よりもはるかに高速な収束を実現する2段階最適化手法を提案する。
提案アルゴリズムは,様々な条件下で特徴付けられ,オンラインサンプルベース手法に特化していることを示す。
論文 参考訳(メタデータ) (2024-05-15T19:03:08Z) - How does Your RL Agent Explore? An Optimal Transport Analysis of Occupancy Measure Trajectories [8.429001045596687]
我々は、RLアルゴリズムの学習過程を、トレーニング中に生成されたポリシーのシーケンスとして表現する。
次に、状態-作用占有度尺度の多様体に誘導される政策軌跡について検討する。
論文 参考訳(メタデータ) (2024-02-14T11:55:50Z) - Posterior Sampling with Delayed Feedback for Reinforcement Learning with
Linear Function Approximation [62.969796245827006]
Delayed-PSVI は楽観的な値に基づくアルゴリズムであり、後続サンプリングによる雑音摂動により値関数空間を探索する。
我々のアルゴリズムは、未知の遅延が存在する場合に、$widetildeO(sqrtd3H3 T + d2H2 E[tau]$最悪の後悔を実現する。
遅延LPSVIのための勾配に基づく近似サンプリングスキームをLangevin動的に組み込んだ。
論文 参考訳(メタデータ) (2023-10-29T06:12:43Z) - Adversarial Style Transfer for Robust Policy Optimization in Deep
Reinforcement Learning [13.652106087606471]
本稿では,特徴量に対する過度な適合を取り除き,強化学習エージェントの一般化をめざすアルゴリズムを提案する。
政策ネットワークは、そのパラメータを更新し、そのような摂動の影響を最小限に抑え、将来期待される報酬を最大化しながら頑健に維持する。
一般化とサンプル効率向上のためのProcgen and Distracting Control Suiteに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-08-29T18:17:35Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Proximal Deterministic Policy Gradient [20.951797549505986]
政治以外の強化学習(RL)アルゴリズムを改善するための2つの手法を提案する。
我々は、現在最先端のオフポリシーアルゴリズムでよく使われている2つの値関数を利用して、改善されたアクション値推定を提供する。
標準連続制御RLベンチマークにおいて,最先端アルゴリズムよりも高い性能向上を示す。
論文 参考訳(メタデータ) (2020-08-03T10:19:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。