論文の概要: A Strategy-Oriented Bayesian Soft Actor-Critic Model
- arxiv url: http://arxiv.org/abs/2303.04193v1
- Date: Tue, 7 Mar 2023 19:31:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 16:14:28.784066
- Title: A Strategy-Oriented Bayesian Soft Actor-Critic Model
- Title(参考訳): 戦略指向ベイズソフトアクタ-クリティックモデル
- Authors: Qin Yang, Ramviyas Parasuraman
- Abstract要約: 本稿では,ベイズ連鎖則に基づく新しい階層型戦略分解手法を提案する。
我々は、この手法を最先端のDRL手法であるソフトアクター・クリティック(SAC)に統合し、対応するベイズソフトアクター・クリティック(BSAC)モデルを構築する。
提案手法とSACおよびTD3,DDPG,PPOといった最先端の手法との比較を行った。
- 参考スコア(独自算出の注目度): 1.52292571922932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adopting reasonable strategies is challenging but crucial for an intelligent
agent with limited resources working in hazardous, unstructured, and dynamic
environments to improve the system's utility, decrease the overall cost, and
increase mission success probability. This paper proposes a novel hierarchical
strategy decomposition approach based on the Bayesian chain rule to separate an
intricate policy into several simple sub-policies and organize their
relationships as Bayesian strategy networks (BSN). We integrate this approach
into the state-of-the-art DRL method -- soft actor-critic (SAC) and build the
corresponding Bayesian soft actor-critic (BSAC) model by organizing several
sub-policies as a joint policy. We compare the proposed BSAC method with the
SAC and other state-of-the-art approaches such as TD3, DDPG, and PPO on the
standard continuous control benchmarks -- Hopper-v2, Walker2d-v2, and
Humanoid-v2 -- in MuJoCo with the OpenAI Gym environment. The results
demonstrate that the promising potential of the BSAC method significantly
improves training efficiency.
- Abstract(参考訳): 合理的な戦略を採用することは難しいが、システムの有用性を改善し、全体のコストを削減し、ミッション成功確率を高めるために、危険で非構造化、動的環境で働く限られたリソースを持つインテリジェントエージェントにとって不可欠である。
本稿では,ベイズ連鎖規則に基づく新しい階層的戦略分解手法を提案し,複雑な方針をいくつかの単純なサブポリティシーに分離し,ベイズ戦略ネットワーク (bsn) としてそれらの関係を整理する。
我々は,このアプローチを最先端のdrl手法であるsoft actor-critic (sac) に統合し,複数のサブポリティシーを統合ポリシーとして整理し,対応するbayesian soft actor-critic (bsac)モデルを構築する。
提案手法を,OpenAI Gym環境のMuJoCoにおける標準連続制御ベンチマークであるHopper-v2, Walker2d-v2, Humanoid-v2において, 提案手法とSAC, TD3, DDPG, PPOなどの最先端手法との比較を行った。
その結果,BSAC法の有望なポテンシャルはトレーニング効率を著しく向上させることがわかった。
関連論文リスト
- POTEC: Off-Policy Learning for Large Action Spaces via Two-Stage Policy
Decomposition [40.851324484481275]
大規模離散行動空間における文脈的バンディット政策の非政治的学習について検討する。
本稿では,2段階ポリシー分解によるポリシー最適化という新しい2段階アルゴリズムを提案する。
特に大規模かつ構造化された行動空間において,POTECはOPLの有効性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-09T03:01:13Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Theoretically Guaranteed Policy Improvement Distilled from Model-Based
Planning [64.10794426777493]
モデルベース強化学習(RL)は、様々な連続制御タスクにおいて顕著な成功を収めた。
近年のプラクティスでは、最適化されたアクションシーケンスをトレーニングフェーズ中にRLポリシーに蒸留する傾向にある。
我々は,モデルに基づく計画から政策への蒸留アプローチを開発する。
論文 参考訳(メタデータ) (2023-07-24T16:52:31Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - Bayesian Soft Actor-Critic: A Directed Acyclic Strategy Graph Based Deep
Reinforcement Learning [1.8220718426493654]
本稿では,ベイズ連鎖に基づく新規な非巡回戦略グラフ分解手法を提案する。
我々は、このアプローチを最先端DRL法、ソフトアクター・クリティック(SAC)に統合する。
ベイズ・ソフト・アクター・クリティック(BSAC)モデルを構築し, 共同政策としていくつかのサブ政治を組織化することによって, 対応するベイズ・ソフト・アクター・クリティック(BSAC)モデルを構築する。
論文 参考訳(メタデータ) (2022-08-11T20:36:23Z) - Soft Actor-Critic with Cross-Entropy Policy Optimization [0.45687771576879593]
クロスエントロピーポリシー最適化(SAC-CEPO)を用いたソフトアクタ臨界法を提案する。
SAC-CEPOは、CEM(Cross-Entropy Method)を使用して、SACのポリシーネットワークを最適化する。
SAC-CEPOは元のSACと競合する性能を示す。
論文 参考訳(メタデータ) (2021-12-21T11:38:12Z) - A Deep Reinforcement Learning Approach to Marginalized Importance
Sampling with the Successor Representation [61.740187363451746]
マージナライズド・プライバシ・サンプリング(MIS)は、ターゲットポリシーのステートアクション占有率とサンプリング分布の密度比を測定する。
我々は,MISと深層強化学習のギャップを,目標方針の後継表現から密度比を計算することによって埋める。
我々は,Atari環境とMuJoCo環境に対するアプローチの実証的性能を評価した。
論文 参考訳(メタデータ) (2021-06-12T20:21:38Z) - Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety
Constraints in Finite MDPs [71.47895794305883]
オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。
本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
論文 参考訳(メタデータ) (2021-05-31T21:04:21Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z) - Decomposed Soft Actor-Critic Method for Cooperative Multi-Agent
Reinforcement Learning [10.64928897082273]
実験の結果,mSACは政策ベースアプローチのCOMAよりも有意に優れていた。
さらに、mSACは2c_vs_64zgやMMM2のような大きなアクションスペースタスクでかなり良い結果をもたらします。
論文 参考訳(メタデータ) (2021-04-14T07:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。