Fugu-MT 論文翻訳(概要): Soft Actor-Critic with Cross-Entropy Policy Optimization

論文の概要: Soft Actor-Critic with Cross-Entropy Policy Optimization

arxiv url: http://arxiv.org/abs/2112.11115v1
Date: Tue, 21 Dec 2021 11:38:12 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-22 14:50:55.313397
Title: Soft Actor-Critic with Cross-Entropy Policy Optimization
Title（参考訳）: クロスエントロピーポリシ最適化を用いたソフトアクタクリティカル
Authors: Zhenyang Shi, Surya P.N. Singh
Abstract要約: クロスエントロピーポリシー最適化(SAC-CEPO)を用いたソフトアクタ臨界法を提案する。 SAC-CEPOは、CEM(Cross-Entropy Method)を使用して、SACのポリシーネットワークを最適化する。 SAC-CEPOは元のSACと競合する性能を示す。
参考スコア（独自算出の注目度）: 0.45687771576879593
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Soft Actor-Critic (SAC) is one of the state-of-the-art off-policy reinforcement learning (RL) algorithms that is within the maximum entropy based RL framework. SAC is demonstrated to perform very well in a list of continous control tasks with good stability and robustness. SAC learns a stochastic Gaussian policy that can maximize a trade-off between total expected reward and the policy entropy. To update the policy, SAC minimizes the KL-Divergence between the current policy density and the soft value function density. Reparameterization trick is then used to obtain the approximate gradient of this divergence. In this paper, we propose Soft Actor-Critic with Cross-Entropy Policy Optimization (SAC-CEPO), which uses Cross-Entropy Method (CEM) to optimize the policy network of SAC. The initial idea is to use CEM to iteratively sample the closest distribution towards the soft value function density and uses the resultant distribution as a target to update the policy network. For the purpose of reducing the computational complexity, we also introduce a decoupled policy structure that decouples the Gaussian policy into one policy that learns the mean and one other policy that learns the deviation such that only the mean policy is trained by CEM. We show that this decoupled policy structure does converge to a optimal and we also demonstrate by experiments that SAC-CEPO achieves competitive performance against the original SAC.
Abstract（参考訳）: ソフトアクター・クライブ(Soft Actor-Critic、SAC)は、最大エントロピーベースのRLフレームワーク内に存在する最先端のオフポリチ強化学習(RL)アルゴリズムの1つである。 SACは、優れた安定性と堅牢性を持つ連続制御タスクのリストにおいて、非常によく機能することが示されている。 SACは、期待される全報酬と政策エントロピーの間のトレードオフを最大化できる確率的なガウス政策を学ぶ。ポリシーを更新するために、SACは現在のポリシー密度とソフトバリュー関数密度との間のKL-ダイバージェンスを最小化する。再パラメータ化のトリックは、この分岐の近似勾配を得るために使われる。本稿では,SACのポリシネットワークを最適化するために,クロスエントロピー手法(CEM)を用いたSAC-CEPOを用いたソフトアクタクリティカルを提案する。最初のアイデアは、cemを使ってソフト値関数密度に最も近い分布を反復的にサンプリングし、その結果の分布をターゲットとしてポリシーネットワークを更新することである。また,計算量を減らすために,ガウスの方針を平均を学ぶ1つの政策と,平均的な政策のみがcemによって訓練されるように逸脱を学習するもう1つの政策に分離した政策構造を導入する。我々は、この分離された政策構造が最適に収束していることを示し、また、SAC-CEPOが元のSACと競合する性能を達成できることを実験によって示す。

関連論文リスト

Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文参考訳（メタデータ） (2025-07-06T14:40:05Z)
Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文参考訳（メタデータ） (2025-06-06T10:29:05Z)
Diffusion Policy Policy Optimization [37.04382170999901]
拡散ポリシー最適化(DPPO)は、拡散ポリシーを微調整するアルゴリズムフレームワークである。 DPOは、一般的なベンチマークの微調整において、最も優れた全体的なパフォーマンスと効率を達成する。 DPPOはRLファインチューニングと拡散パラメタライゼーションのユニークな相乗効果を生かしていることを示す。
論文参考訳（メタデータ） (2024-09-01T02:47:50Z)
Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文参考訳（メタデータ） (2024-05-09T09:08:09Z)
Stepwise Alignment for Constrained Language Model Policy Optimization [12.986006070964772]
大規模言語モデル(LLM)を用いたAIシステムの現実的な応用には、安全性と信頼性が不可欠である本稿では、安全制約下での報酬を最大化するために、言語モデルポリシーの最適化問題として、人間の価値アライメントを定式化する。 SACPOの背景にある重要な考え方の1つは、報酬と安全を取り入れた最適な政策は、報酬に整合した政策から直接得ることができるということである。
論文参考訳（メタデータ） (2024-04-17T03:44:58Z)
Adversarially Trained Weighted Actor-Critic for Safe Offline Reinforcement Learning [9.94248417157713]
機能近似に基づく安全オフライン強化学習(RL)のための新しいアルゴリズムであるWSACを提案する。 WSACは2人プレイのStackelbergゲームとして設計され、洗練された目的関数を最適化する。
論文参考訳（メタデータ） (2024-01-01T01:44:58Z)
Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文参考訳（メタデータ） (2023-10-03T10:52:21Z)
Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with On-Policy Experience [9.06635747612495]
ソフト・アクター・クリティカル(Soft Actor-Critic, SAC)は、アクター・アクター・アクターの強化学習アルゴリズムである。 SACは、期待されるリターンとエントロピーの間のトレードオフを最大化することでポリシーを訓練する。一連の連続制御ベンチマークタスクで最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2021-09-24T06:46:28Z)
Cautious Policy Programming: Exploiting KL Regularization in Monotonic Policy Improvement for Reinforcement Learning [11.82492300303637]
本稿では,学習中の単調な政策改善を確実にする,新しい値ベース強化学習(RL)アルゴリズムを提案する。提案アルゴリズムは,古典的操作問題と高次元アタリゲームの両方において,性能と安定性を両立させることができることを示す。
論文参考訳（メタデータ） (2021-07-13T01:03:10Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)
Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC) 半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文参考訳（メタデータ） (2020-07-13T02:52:18Z)
Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文参考訳（メタデータ） (2020-03-09T13:05:47Z)
Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。 KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文参考訳（メタデータ） (2020-02-17T13:30:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。