Fugu-MT 論文翻訳(概要): Bayesian Soft Actor-Critic: A Directed Acyclic Strategy Graph Based Deep Reinforcement Learning

論文の概要: Bayesian Soft Actor-Critic: A Directed Acyclic Strategy Graph Based Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2208.06033v2
Date: Mon, 4 Dec 2023 15:35:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-06 20:41:20.584741
Title: Bayesian Soft Actor-Critic: A Directed Acyclic Strategy Graph Based Deep Reinforcement Learning
Title（参考訳）: bayesian soft actor-critic: 間接的非循環戦略グラフに基づく深層強化学習
Authors: Qin Yang, Ramviyas Parasuraman
Abstract要約: 本稿では,ベイズ連鎖に基づく新規な非巡回戦略グラフ分解手法を提案する。我々は、このアプローチを最先端DRL法、ソフトアクター・クリティック(SAC)に統合する。ベイズ・ソフト・アクター・クリティック(BSAC)モデルを構築し, 共同政策としていくつかのサブ政治を組織化することによって, 対応するベイズ・ソフト・アクター・クリティック(BSAC)モデルを構築する。
参考スコア（独自算出の注目度）: 1.8220718426493654
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Adopting reasonable strategies is challenging but crucial for an intelligent agent with limited resources working in hazardous, unstructured, and dynamic environments to improve the system's utility, decrease the overall cost, and increase mission success probability. This paper proposes a novel directed acyclic strategy graph decomposition approach based on Bayesian chaining to separate an intricate policy into several simple sub-policies and organize their relationships as Bayesian strategy networks (BSN). We integrate this approach into the state-of-the-art DRL method -- soft actor-critic (SAC), and build the corresponding Bayesian soft actor-critic (BSAC) model by organizing several sub-policies as a joint policy. We compare our method against the state-of-the-art deep reinforcement learning algorithms on the standard continuous control benchmarks in the OpenAI Gym environment. The results demonstrate that the promising potential of the BSAC method significantly improves training efficiency.
Abstract（参考訳）: 合理的な戦略を採用することは難しいが、システムの有用性を改善し、全体のコストを削減し、ミッション成功確率を高めるために、危険で非構造化、動的環境で働く限られたリソースを持つインテリジェントエージェントにとって不可欠である。本稿では,ベイジアン連鎖に基づく非循環的戦略グラフ分解手法を提案し,複雑な政策をいくつかの単純なサブ政治に分割し,それらの関係をベイジアン戦略ネットワーク(BSN)として整理する。このアプローチを最先端のdrl手法 -- soft actor-critic (sac) に統合し,複数のサブポリティシーを統合ポリシーとして整理し,対応するbayesian soft actor-critic (bsac)モデルを構築した。我々は,OpenAI Gym環境における標準連続制御ベンチマークにおいて,最先端の深層強化学習アルゴリズムと比較した。その結果,BSAC法の有望なポテンシャルはトレーニング効率を著しく向上させることがわかった。

関連論文リスト

COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文参考訳（メタデータ） (2025-02-12T01:31:01Z)
Evolutionary Strategy Guided Reinforcement Learning via MultiBuffer Communication [0.0]
本稿では、進化的戦略と呼ばれる特定の進化的アルゴリズムのファミリーと、非政治的な深層強化学習アルゴリズムTD3を組み合わせた新しい進化的強化学習モデルを提案する。提案アルゴリズムは,MuJoCo制御タスク上で,現在の進化強化学習アルゴリズムと競合して動作することを示す。
論文参考訳（メタデータ） (2023-06-20T13:41:57Z)
Context-Aware Bayesian Network Actor-Critic Methods for Cooperative Multi-Agent Reinforcement Learning [7.784991832712813]
本稿では, エージェントの行動選択の相関関係を, 共同政策に導入するベイズネットワークを提案する。本研究では,コンテキスト認識型ベイズ型ネットワークポリシを学習するための実用的なアルゴリズムを開発した。 MARLベンチマークの実証結果は,我々のアプローチの利点を示している。
論文参考訳（メタデータ） (2023-06-02T21:22:27Z)
Strategy Synthesis in Markov Decision Processes Under Limited Sampling Access [3.441021278275805]
グレーボックスマルコフ決定プロセス(MDP)によってモデル化された環境において、エージェントの作用の影響は後継状態の点で知られているが、関連する合成は知られていない。本稿では,区間型MDPを内部モデルとして用いた強化学習により,グレーボックス型MDPの戦略アルゴリズムを考案する。
論文参考訳（メタデータ） (2023-03-22T16:58:44Z)
A Strategy-Oriented Bayesian Soft Actor-Critic Model [1.52292571922932]
本稿では,ベイズ連鎖則に基づく新しい階層型戦略分解手法を提案する。我々は、この手法を最先端のDRL手法であるソフトアクター・クリティック(SAC)に統合し、対応するベイズソフトアクター・クリティック(BSAC)モデルを構築する。提案手法とSACおよびTD3,DDPG,PPOといった最先端の手法との比較を行った。
論文参考訳（メタデータ） (2023-03-07T19:31:25Z)
Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。 ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文参考訳（メタデータ） (2023-02-23T10:48:09Z)
A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。 D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文参考訳（メタデータ） (2022-02-19T20:22:04Z)
Soft Actor-Critic with Cross-Entropy Policy Optimization [0.45687771576879593]
クロスエントロピーポリシー最適化(SAC-CEPO)を用いたソフトアクタ臨界法を提案する。 SAC-CEPOは、CEM(Cross-Entropy Method)を使用して、SACのポリシーネットワークを最適化する。 SAC-CEPOは元のSACと競合する性能を示す。
論文参考訳（メタデータ） (2021-12-21T11:38:12Z)
Off-policy Reinforcement Learning with Optimistic Exploration and Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文参考訳（メタデータ） (2021-10-22T22:07:51Z)
A Deep Reinforcement Learning Approach to Marginalized Importance Sampling with the Successor Representation [61.740187363451746]
マージナライズド・プライバシ・サンプリング(MIS)は、ターゲットポリシーのステートアクション占有率とサンプリング分布の密度比を測定する。我々は,MISと深層強化学習のギャップを,目標方針の後継表現から密度比を計算することによって埋める。我々は,Atari環境とMuJoCo環境に対するアプローチの実証的性能を評価した。
論文参考訳（メタデータ） (2021-06-12T20:21:38Z)
Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety Constraints in Finite MDPs [71.47895794305883]
オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
論文参考訳（メタデータ） (2021-05-31T21:04:21Z)
SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。 SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文参考訳（メタデータ） (2020-07-09T17:08:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。