論文の概要: Wasserstein Barycenter Soft Actor-Critic
- arxiv url: http://arxiv.org/abs/2506.10167v1
- Date: Wed, 11 Jun 2025 20:39:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.446281
- Title: Wasserstein Barycenter Soft Actor-Critic
- Title(参考訳): Wasserstein Barycenter Soft Actor-Critic
- Authors: Zahra Shahrooei, Ali Baheri,
- Abstract要約: 本稿では、時間差学習のための悲観的アクターと探索を促進する楽観的アクターの恩恵を受けるWBSACアルゴリズムを提案する。
We show that WBSAC is more sample- efficient on MuJoCo continuous control task。
- 参考スコア(独自算出の注目度): 4.14360329494344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep off-policy actor-critic algorithms have emerged as the leading framework for reinforcement learning in continuous control domains. However, most of these algorithms suffer from poor sample efficiency, especially in environments with sparse rewards. In this paper, we take a step towards addressing this issue by providing a principled directed exploration strategy. We propose Wasserstein Barycenter Soft Actor-Critic (WBSAC) algorithm, which benefits from a pessimistic actor for temporal difference learning and an optimistic actor to promote exploration. This is achieved by using the Wasserstein barycenter of the pessimistic and optimistic policies as the exploration policy and adjusting the degree of exploration throughout the learning process. We compare WBSAC with state-of-the-art off-policy actor-critic algorithms and show that WBSAC is more sample-efficient on MuJoCo continuous control tasks.
- Abstract(参考訳): 継続的制御ドメインにおける強化学習の先駆的なフレームワークとして、政治以外のアクター批判的アルゴリズムが登場している。
しかし、これらのアルゴリズムのほとんどはサンプル効率の低さに悩まされている。
本稿では,この問題を解決するために,原則的指向探索戦略を提供することによって,この問題に対処する。
本稿では、時間差学習のための悲観的アクターと探索を促進する楽観的アクターの恩恵を受けるWBSACアルゴリズムを提案する。
これは、悲観的かつ楽観的な政策のヴァッサーシュタイン・バリセンタを探索政策として使用し、学習過程全体を通して探索の程度を調整することで達成される。
We compare WBSAC with State-of-the-the-art off-policy actor-critic algorithm and show that WBSAC is more sample- efficient on MuJoCo continuous control task。
関連論文リスト
- IL-SOAR : Imitation Learning with Soft Optimistic Actor cRitic [52.44637913176449]
本稿では、模倣学習のためのSOARフレームワークを紹介する。
これは、コストとポリシーの更新を交互に行うプリミティブデュアルスタイルのアルゴリズムで、専門家によるデモンストレーションからポリシーを学ぶアルゴリズムテンプレートである。
いくつかの MuJoCo 環境では,f-IRL,ML-IRL,CSIL などのソフトアクタ批判に基づく模倣学習アルゴリズムの性能を一貫して向上することが示されている。
論文 参考訳(メタデータ) (2025-02-27T08:03:37Z) - PAC-Bayesian Soft Actor-Critic Learning [9.752336113724928]
アクター批判アルゴリズムは、強化学習(RL)と政策評価と2つの関数近似器による改善という2つの目標に対処する。
我々は,このボトルネックに,Soft Actor-Critic (SAC) アルゴリズムの批判的トレーニング目標として,既存の確率的近似(PAC)ベイズ境界を初めて採用することによって対処する。
論文 参考訳(メタデータ) (2023-01-30T10:44:15Z) - Bayesian Soft Actor-Critic: A Directed Acyclic Strategy Graph Based Deep
Reinforcement Learning [1.8220718426493654]
本稿では,ベイズ連鎖に基づく新規な非巡回戦略グラフ分解手法を提案する。
我々は、このアプローチを最先端DRL法、ソフトアクター・クリティック(SAC)に統合する。
ベイズ・ソフト・アクター・クリティック(BSAC)モデルを構築し, 共同政策としていくつかのサブ政治を組織化することによって, 対応するベイズ・ソフト・アクター・クリティック(BSAC)モデルを構築する。
論文 参考訳(メタデータ) (2022-08-11T20:36:23Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Provable Benefits of Actor-Critic Methods for Offline Reinforcement
Learning [85.50033812217254]
アクター批判法はオフラインの強化学習に広く用いられているが、理論的にはそれほどよく理解されていない。
ペシミズムの原理を自然に取り入れた新しいオフラインアクター批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-19T17:27:29Z) - OPAC: Opportunistic Actor-Critic [0.0]
Opportunistic Actor-Critic (OPAC) は、より優れた探索ポリシーとより分散の少ないモデルのないディープRLアルゴリズムである。
OPACは、TD3とSACの最も強力な機能を組み合わせて、政治以外の方法でポリシーを最適化することを目指している。
論文 参考訳(メタデータ) (2020-12-11T18:33:35Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。