論文の概要: Bayesian Soft Actor-Critic: A Directed Acyclic Strategy Graph Based Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2208.06033v2
- Date: Mon, 4 Dec 2023 15:35:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 20:41:20.584741
- Title: Bayesian Soft Actor-Critic: A Directed Acyclic Strategy Graph Based Deep
Reinforcement Learning
- Title(参考訳): bayesian soft actor-critic: 間接的非循環戦略グラフに基づく深層強化学習
- Authors: Qin Yang, Ramviyas Parasuraman
- Abstract要約: 本稿では,ベイズ連鎖に基づく新規な非巡回戦略グラフ分解手法を提案する。
我々は、このアプローチを最先端DRL法、ソフトアクター・クリティック(SAC)に統合する。
ベイズ・ソフト・アクター・クリティック(BSAC)モデルを構築し, 共同政策としていくつかのサブ政治を組織化することによって, 対応するベイズ・ソフト・アクター・クリティック(BSAC)モデルを構築する。
- 参考スコア(独自算出の注目度): 1.8220718426493654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adopting reasonable strategies is challenging but crucial for an intelligent
agent with limited resources working in hazardous, unstructured, and dynamic
environments to improve the system's utility, decrease the overall cost, and
increase mission success probability. This paper proposes a novel directed
acyclic strategy graph decomposition approach based on Bayesian chaining to
separate an intricate policy into several simple sub-policies and organize
their relationships as Bayesian strategy networks (BSN). We integrate this
approach into the state-of-the-art DRL method -- soft actor-critic (SAC), and
build the corresponding Bayesian soft actor-critic (BSAC) model by organizing
several sub-policies as a joint policy. We compare our method against the
state-of-the-art deep reinforcement learning algorithms on the standard
continuous control benchmarks in the OpenAI Gym environment. The results
demonstrate that the promising potential of the BSAC method significantly
improves training efficiency.
- Abstract(参考訳): 合理的な戦略を採用することは難しいが、システムの有用性を改善し、全体のコストを削減し、ミッション成功確率を高めるために、危険で非構造化、動的環境で働く限られたリソースを持つインテリジェントエージェントにとって不可欠である。
本稿では,ベイジアン連鎖に基づく非循環的戦略グラフ分解手法を提案し,複雑な政策をいくつかの単純なサブ政治に分割し,それらの関係をベイジアン戦略ネットワーク(BSN)として整理する。
このアプローチを最先端のdrl手法 -- soft actor-critic (sac) に統合し,複数のサブポリティシーを統合ポリシーとして整理し,対応するbayesian soft actor-critic (bsac)モデルを構築した。
我々は,OpenAI Gym環境における標準連続制御ベンチマークにおいて,最先端の深層強化学習アルゴリズムと比較した。
その結果,BSAC法の有望なポテンシャルはトレーニング効率を著しく向上させることがわかった。
関連論文リスト
- Evolutionary Strategy Guided Reinforcement Learning via MultiBuffer
Communication [0.0]
本稿では、進化的戦略と呼ばれる特定の進化的アルゴリズムのファミリーと、非政治的な深層強化学習アルゴリズムTD3を組み合わせた新しい進化的強化学習モデルを提案する。
提案アルゴリズムは,MuJoCo制御タスク上で,現在の進化強化学習アルゴリズムと競合して動作することを示す。
論文 参考訳(メタデータ) (2023-06-20T13:41:57Z) - Context-Aware Bayesian Network Actor-Critic Methods for Cooperative
Multi-Agent Reinforcement Learning [7.784991832712813]
本稿では, エージェントの行動選択の相関関係を, 共同政策に導入するベイズネットワークを提案する。
本研究では,コンテキスト認識型ベイズ型ネットワークポリシを学習するための実用的なアルゴリズムを開発した。
MARLベンチマークの実証結果は,我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2023-06-02T21:22:27Z) - Strategy Synthesis in Markov Decision Processes Under Limited Sampling
Access [3.441021278275805]
グレーボックスマルコフ決定プロセス(MDP)によってモデル化された環境において、エージェントの作用の影響は後継状態の点で知られているが、関連する合成は知られていない。
本稿では,区間型MDPを内部モデルとして用いた強化学習により,グレーボックス型MDPの戦略アルゴリズムを考案する。
論文 参考訳(メタデータ) (2023-03-22T16:58:44Z) - A Strategy-Oriented Bayesian Soft Actor-Critic Model [1.52292571922932]
本稿では,ベイズ連鎖則に基づく新しい階層型戦略分解手法を提案する。
我々は、この手法を最先端のDRL手法であるソフトアクター・クリティック(SAC)に統合し、対応するベイズソフトアクター・クリティック(BSAC)モデルを構築する。
提案手法とSACおよびTD3,DDPG,PPOといった最先端の手法との比較を行った。
論文 参考訳(メタデータ) (2023-03-07T19:31:25Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Soft Actor-Critic with Cross-Entropy Policy Optimization [0.45687771576879593]
クロスエントロピーポリシー最適化(SAC-CEPO)を用いたソフトアクタ臨界法を提案する。
SAC-CEPOは、CEM(Cross-Entropy Method)を使用して、SACのポリシーネットワークを最適化する。
SAC-CEPOは元のSACと競合する性能を示す。
論文 参考訳(メタデータ) (2021-12-21T11:38:12Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - A Deep Reinforcement Learning Approach to Marginalized Importance
Sampling with the Successor Representation [61.740187363451746]
マージナライズド・プライバシ・サンプリング(MIS)は、ターゲットポリシーのステートアクション占有率とサンプリング分布の密度比を測定する。
我々は,MISと深層強化学習のギャップを,目標方針の後継表現から密度比を計算することによって埋める。
我々は,Atari環境とMuJoCo環境に対するアプローチの実証的性能を評価した。
論文 参考訳(メタデータ) (2021-06-12T20:21:38Z) - Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety
Constraints in Finite MDPs [71.47895794305883]
オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。
本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
論文 参考訳(メタデータ) (2021-05-31T21:04:21Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。