論文の概要: BSAC: Bayesian Strategy Network Based Soft Actor-Critic in Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2208.06033v1
- Date: Thu, 11 Aug 2022 20:36:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-15 13:06:32.280474
- Title: BSAC: Bayesian Strategy Network Based Soft Actor-Critic in Deep
Reinforcement Learning
- Title(参考訳): BSAC:深層強化学習におけるベイズ戦略ネットワークに基づくソフトアクター批判
- Authors: Qin Yang, Ramviyas Parasuraman
- Abstract要約: 本稿では,ベイズ連鎖に基づく新しい階層型戦略分解手法を提案する。
ベイズ・ソフト・アクター・クリティック(BSAC)モデルを構築し, 共同政策としていくつかのサブ政治を組織化することによって, 対応するベイズ・ソフト・アクター・クリティック(BSAC)モデルを構築する。
その結果,BSAC法の有望なポテンシャルはトレーニング効率を著しく向上させることがわかった。
- 参考スコア(独自算出の注目度): 1.52292571922932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adopting reasonable strategies is challenging but crucial for an intelligent
agent with limited resources working in hazardous, unstructured, and dynamic
environments to improve the system utility, decrease the overall cost, and
increase mission success probability. Deep Reinforcement Learning (DRL) helps
organize agents' behaviors and actions based on their state and represents
complex strategies (composition of actions). This paper proposes a novel
hierarchical strategy decomposition approach based on Bayesian chaining to
separate an intricate policy into several simple sub-policies and organize
their relationships as Bayesian strategy networks (BSN). We integrate this
approach into the state-of-the-art DRL method, soft actor-critic (SAC), and
build the corresponding Bayesian soft actor-critic (BSAC) model by organizing
several sub-policies as a joint policy. We compare the proposed BSAC method
with the SAC and other state-of-the-art approaches such as TD3, DDPG, and PPO
on the standard continuous control benchmarks -- Hopper-v2, Walker2d-v2, and
Humanoid-v2 -- in MuJoCo with the OpenAI Gym environment. The results
demonstrate that the promising potential of the BSAC method significantly
improves training efficiency. The open sourced codes for BSAC can be accessed
at https://github.com/herolab-uga/bsac.
- Abstract(参考訳): 合理的な戦略を採用することは難しいが、システムの有用性を改善し、全体のコストを削減し、ミッション成功の可能性を高めるために、危険で非構造化、動的環境で働く限られたリソースを持つインテリジェントエージェントにとって、不可欠である。
深層強化学習(drl)はエージェントの行動や行動をその状態に基づいて整理し、複雑な戦略(アクションの合成)を表現する。
本稿では,ベイジアン連鎖に基づく新しい階層型戦略分解手法を提案し,複雑な政策をいくつかの単純なサブ政治に分割し,ベイジアン戦略ネットワーク(BSN)としてそれらの関係を整理する。
このアプローチを最先端のdrl手法であるsoft actor-critic (sac) に統合し,複数のサブポリティシーを統合ポリシーとして整理し,対応するbayesian soft actor-critic (bsac)モデルを構築した。
提案手法を,OpenAI Gym環境のMuJoCoにおける標準連続制御ベンチマークであるHopper-v2, Walker2d-v2, Humanoid-v2において, 提案手法とSAC, TD3, DDPG, PPOなどの最先端手法との比較を行った。
その結果,BSAC法の有望なポテンシャルはトレーニング効率を著しく向上させることがわかった。
BSACのオープンソースコードはhttps://github.com/herolab-uga/bsacでアクセスできる。
関連論文リスト
- COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。
従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。
本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文 参考訳(メタデータ) (2025-02-12T01:31:01Z) - Evolutionary Strategy Guided Reinforcement Learning via MultiBuffer
Communication [0.0]
本稿では、進化的戦略と呼ばれる特定の進化的アルゴリズムのファミリーと、非政治的な深層強化学習アルゴリズムTD3を組み合わせた新しい進化的強化学習モデルを提案する。
提案アルゴリズムは,MuJoCo制御タスク上で,現在の進化強化学習アルゴリズムと競合して動作することを示す。
論文 参考訳(メタデータ) (2023-06-20T13:41:57Z) - Context-Aware Bayesian Network Actor-Critic Methods for Cooperative
Multi-Agent Reinforcement Learning [7.784991832712813]
本稿では, エージェントの行動選択の相関関係を, 共同政策に導入するベイズネットワークを提案する。
本研究では,コンテキスト認識型ベイズ型ネットワークポリシを学習するための実用的なアルゴリズムを開発した。
MARLベンチマークの実証結果は,我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2023-06-02T21:22:27Z) - Strategy Synthesis in Markov Decision Processes Under Limited Sampling
Access [3.441021278275805]
グレーボックスマルコフ決定プロセス(MDP)によってモデル化された環境において、エージェントの作用の影響は後継状態の点で知られているが、関連する合成は知られていない。
本稿では,区間型MDPを内部モデルとして用いた強化学習により,グレーボックス型MDPの戦略アルゴリズムを考案する。
論文 参考訳(メタデータ) (2023-03-22T16:58:44Z) - A Strategy-Oriented Bayesian Soft Actor-Critic Model [1.52292571922932]
本稿では,ベイズ連鎖則に基づく新しい階層型戦略分解手法を提案する。
我々は、この手法を最先端のDRL手法であるソフトアクター・クリティック(SAC)に統合し、対応するベイズソフトアクター・クリティック(BSAC)モデルを構築する。
提案手法とSACおよびTD3,DDPG,PPOといった最先端の手法との比較を行った。
論文 参考訳(メタデータ) (2023-03-07T19:31:25Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Soft Actor-Critic with Cross-Entropy Policy Optimization [0.45687771576879593]
クロスエントロピーポリシー最適化(SAC-CEPO)を用いたソフトアクタ臨界法を提案する。
SAC-CEPOは、CEM(Cross-Entropy Method)を使用して、SACのポリシーネットワークを最適化する。
SAC-CEPOは元のSACと競合する性能を示す。
論文 参考訳(メタデータ) (2021-12-21T11:38:12Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - A Deep Reinforcement Learning Approach to Marginalized Importance
Sampling with the Successor Representation [61.740187363451746]
マージナライズド・プライバシ・サンプリング(MIS)は、ターゲットポリシーのステートアクション占有率とサンプリング分布の密度比を測定する。
我々は,MISと深層強化学習のギャップを,目標方針の後継表現から密度比を計算することによって埋める。
我々は,Atari環境とMuJoCo環境に対するアプローチの実証的性能を評価した。
論文 参考訳(メタデータ) (2021-06-12T20:21:38Z) - Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety
Constraints in Finite MDPs [71.47895794305883]
オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。
本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
論文 参考訳(メタデータ) (2021-05-31T21:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。