論文の概要: Soft Actor-Critic with Cross-Entropy Policy Optimization
- arxiv url: http://arxiv.org/abs/2112.11115v1
- Date: Tue, 21 Dec 2021 11:38:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-22 14:50:55.313397
- Title: Soft Actor-Critic with Cross-Entropy Policy Optimization
- Title(参考訳): クロスエントロピーポリシ最適化を用いたソフトアクタクリティカル
- Authors: Zhenyang Shi, Surya P.N. Singh
- Abstract要約: クロスエントロピーポリシー最適化(SAC-CEPO)を用いたソフトアクタ臨界法を提案する。
SAC-CEPOは、CEM(Cross-Entropy Method)を使用して、SACのポリシーネットワークを最適化する。
SAC-CEPOは元のSACと競合する性能を示す。
- 参考スコア(独自算出の注目度): 0.45687771576879593
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Soft Actor-Critic (SAC) is one of the state-of-the-art off-policy
reinforcement learning (RL) algorithms that is within the maximum entropy based
RL framework. SAC is demonstrated to perform very well in a list of continous
control tasks with good stability and robustness. SAC learns a stochastic
Gaussian policy that can maximize a trade-off between total expected reward and
the policy entropy. To update the policy, SAC minimizes the KL-Divergence
between the current policy density and the soft value function density.
Reparameterization trick is then used to obtain the approximate gradient of
this divergence. In this paper, we propose Soft Actor-Critic with Cross-Entropy
Policy Optimization (SAC-CEPO), which uses Cross-Entropy Method (CEM) to
optimize the policy network of SAC. The initial idea is to use CEM to
iteratively sample the closest distribution towards the soft value function
density and uses the resultant distribution as a target to update the policy
network. For the purpose of reducing the computational complexity, we also
introduce a decoupled policy structure that decouples the Gaussian policy into
one policy that learns the mean and one other policy that learns the deviation
such that only the mean policy is trained by CEM. We show that this decoupled
policy structure does converge to a optimal and we also demonstrate by
experiments that SAC-CEPO achieves competitive performance against the original
SAC.
- Abstract(参考訳): ソフトアクター・クライブ(Soft Actor-Critic、SAC)は、最大エントロピーベースのRLフレームワーク内に存在する最先端のオフポリチ強化学習(RL)アルゴリズムの1つである。
SACは、優れた安定性と堅牢性を持つ連続制御タスクのリストにおいて、非常によく機能することが示されている。
SACは、期待される全報酬と政策エントロピーの間のトレードオフを最大化できる確率的なガウス政策を学ぶ。
ポリシーを更新するために、SACは現在のポリシー密度とソフトバリュー関数密度との間のKL-ダイバージェンスを最小化する。
再パラメータ化のトリックは、この分岐の近似勾配を得るために使われる。
本稿では,SACのポリシネットワークを最適化するために,クロスエントロピー手法(CEM)を用いたSAC-CEPOを用いたソフトアクタクリティカルを提案する。
最初のアイデアは、cemを使ってソフト値関数密度に最も近い分布を反復的にサンプリングし、その結果の分布をターゲットとしてポリシーネットワークを更新することである。
また,計算量を減らすために,ガウスの方針を平均を学ぶ1つの政策と,平均的な政策のみがcemによって訓練されるように逸脱を学習するもう1つの政策に分離した政策構造を導入する。
我々は、この分離された政策構造が最適に収束していることを示し、また、SAC-CEPOが元のSACと競合する性能を達成できることを実験によって示す。
関連論文リスト
- Diffusion Policy Policy Optimization [37.04382170999901]
拡散ポリシー最適化(DPPO)は、拡散ポリシーを微調整するアルゴリズムフレームワークである。
DPOは、一般的なベンチマークの微調整において、最も優れた全体的なパフォーマンスと効率を達成する。
DPPOはRLファインチューニングと拡散パラメタライゼーションのユニークな相乗効果を生かしていることを示す。
論文 参考訳(メタデータ) (2024-09-01T02:47:50Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Stepwise Alignment for Constrained Language Model Policy Optimization [12.986006070964772]
大規模言語モデル(LLM)を用いたAIシステムの現実的な応用には、安全性と信頼性が不可欠である
本稿では、安全制約下での報酬を最大化するために、言語モデルポリシーの最適化問題として、人間の価値アライメントを定式化する。
SACPOの背景にある重要な考え方の1つは、報酬と安全を取り入れた最適な政策は、報酬に整合した政策から直接得ることができるということである。
論文 参考訳(メタデータ) (2024-04-17T03:44:58Z) - Adversarially Trained Weighted Actor-Critic for Safe Offline Reinforcement Learning [9.94248417157713]
機能近似に基づく安全オフライン強化学習(RL)のための新しいアルゴリズムであるWSACを提案する。
WSACは2人プレイのStackelbergゲームとして設計され、洗練された目的関数を最適化する。
論文 参考訳(メタデータ) (2024-01-01T01:44:58Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with
On-Policy Experience [9.06635747612495]
ソフト・アクター・クリティカル(Soft Actor-Critic, SAC)は、アクター・アクター・アクターの強化学習アルゴリズムである。
SACは、期待されるリターンとエントロピーの間のトレードオフを最大化することでポリシーを訓練する。
一連の連続制御ベンチマークタスクで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-09-24T06:46:28Z) - Cautious Policy Programming: Exploiting KL Regularization in Monotonic
Policy Improvement for Reinforcement Learning [11.82492300303637]
本稿では,学習中の単調な政策改善を確実にする,新しい値ベース強化学習(RL)アルゴリズムを提案する。
提案アルゴリズムは,古典的操作問題と高次元アタリゲームの両方において,性能と安定性を両立させることができることを示す。
論文 参考訳(メタデータ) (2021-07-13T01:03:10Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。