論文の概要: Implicit Distributional Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2007.06159v2
- Date: Mon, 19 Oct 2020 20:23:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 22:46:21.871603
- Title: Implicit Distributional Reinforcement Learning
- Title(参考訳): 帰納的分散強化学習
- Authors: Yuguang Yue, Zhendong Wang, Mingyuan Zhou
- Abstract要約: 2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
- 参考スコア(独自算出の注目度): 61.166030238490634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To improve the sample efficiency of policy-gradient based reinforcement
learning algorithms, we propose implicit distributional actor-critic (IDAC)
that consists of a distributional critic, built on two deep generator networks
(DGNs), and a semi-implicit actor (SIA), powered by a flexible policy
distribution. We adopt a distributional perspective on the discounted
cumulative return and model it with a state-action-dependent implicit
distribution, which is approximated by the DGNs that take state-action pairs
and random noises as their input. Moreover, we use the SIA to provide a
semi-implicit policy distribution, which mixes the policy parameters with a
reparameterizable distribution that is not constrained by an analytic density
function. In this way, the policy's marginal distribution is implicit,
providing the potential to model complex properties such as covariance
structure and skewness, but its parameter and entropy can still be estimated.
We incorporate these features with an off-policy algorithm framework to solve
problems with continuous action space and compare IDAC with state-of-the-art
algorithms on representative OpenAI Gym environments. We observe that IDAC
outperforms these baselines in most tasks. Python code is provided.
- Abstract(参考訳): そこで我々は,2つのディープジェネレータネットワーク(DGN)上に構築された分布評論家と,フレキシブルなポリシ分布を利用した半単純アクタ(SIA)からなる暗黙的な分布型アクタ批判(IDAC)を提案する。
我々は、割引累積リターンの分布的視点を採用し、状態-作用対とランダムノイズを入力とするDGNによって近似された状態-作用依存型暗黙分布をモデル化する。
さらに,SIAを用いて,政策パラメータと解析密度関数に制約されない再パラメータ化可能な分布とを混合した半単純ポリシ分布を提供する。
このように、ポリシーの限界分布は暗黙的であり、共分散構造や歪性のような複雑な性質をモデル化する可能性を提供するが、そのパラメータとエントロピーは依然として推定できる。
これらの特徴を非政治的なアルゴリズムフレームワークに組み込んで、連続的なアクション空間の問題を解決するとともに、代表的OpenAI Gym環境におけるIDACと最先端のアルゴリズムを比較する。
idacは、ほとんどのタスクでこれらのベースラインよりも優れています。
pythonコードが提供される。
関連論文リスト
- Diffusion Actor-Critic with Entropy Regulator [32.79341490514616]
エントロピーレギュレータ(DACER)を用いたオンラインRLアルゴリズムについて提案する。
このアルゴリズムは拡散モデルの逆過程を新しい政策関数として概念化する。
MuJoCoベンチマークとマルチモーダルタスクの実験は、DACERアルゴリズムが最先端(SOTA)性能を達成することを示す。
論文 参考訳(メタデータ) (2024-05-24T03:23:27Z) - A Distributional Analogue to the Successor Representation [54.99439648059807]
本稿では,分散強化学習のための新しい手法を提案する。
学習プロセスにおける遷移構造と報酬のクリーンな分離を解明する。
実例として,ゼロショットリスクに敏感な政策評価が可能であることを示す。
論文 参考訳(メタデータ) (2024-02-13T15:35:24Z) - Score-Aware Policy-Gradient Methods and Performance Guarantees using Local Lyapunov Conditions: Applications to Product-Form Stochastic Networks and Queueing Systems [1.747623282473278]
本稿では,ネットワーク上の決定過程(MDP)から得られる定常分布のタイプを利用したモデル強化学習(RL)のポリシー段階的手法を提案する。
具体的には、政策パラメータによってMDPの定常分布がパラメータ化されている場合、平均回帰推定のための既存の政策手法を改善することができる。
論文 参考訳(メタデータ) (2023-12-05T14:44:58Z) - Delta-AI: Local objectives for amortized inference in sparse graphical models [64.5938437823851]
スパース確率的グラフィカルモデル(PGM)における補正推論のための新しいアルゴリズムを提案する。
提案手法は, PGMにおける変数のサンプリングをエージェントが行う一連の行動とみなす場合, エージェントのポリシー学習目的において, PGMの疎結合が局所的な信用割当を可能にするという観察に基づいている。
合成PGMからサンプリングし、スパース因子構造を持つ潜在変数モデルを訓練するための$Delta$-AIの有効性について説明する。
論文 参考訳(メタデータ) (2023-10-03T20:37:03Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Strategic Distribution Shift of Interacting Agents via Coupled Gradient
Flows [6.064702468344376]
実世界のシステムにおける分散シフトのダイナミクスを解析するための新しいフレームワークを提案する。
より単純なモデルでは捉えられない偏極や異なる影響といった、よく文書化された形態の分布シフトを捉える手法を示す。
論文 参考訳(メタデータ) (2023-07-03T17:18:50Z) - PACER: A Fully Push-forward-based Distributional Reinforcement Learning Algorithm [28.48626438603237]
PACERは、流通批評家、俳優、サンプルベースの奨励者で構成されている。
プッシュフォワード演算子は、それぞれリターン分布とポリシーをモデル化するために、批評家とアクターの両方で利用される。
プッシュフォワードポリシー更新のために、サンプルベースのユーティリティ値ポリシー勾配を確立する。
論文 参考訳(メタデータ) (2023-06-11T09:45:31Z) - Compressed Regression over Adaptive Networks [58.79251288443156]
分散エージェントのネットワークによって達成可能な性能を導出し,通信制約や回帰問題を解消し,適応的に解決する。
エージェントによって最適化に必要なパラメータをオンラインで学習できる最適化アロケーション戦略を考案する。
論文 参考訳(メタデータ) (2023-04-07T13:41:08Z) - Distributional Hamilton-Jacobi-Bellman Equations for Continuous-Time
Reinforcement Learning [39.07307690074323]
本研究では,連続した環境下で対話するエージェントによって得られるリターンの分布を予測することの問題点を考察する。
正確なリターン予測は、リスクに敏感な制御、状態表現、マルチエージェント調整などのための最適なポリシーを決定するのに有用であることが証明されている。
本稿では、オンライン制御アルゴリズムで実装可能なJKOスキームに基づいて、分布HJBを近似的に解くことのできるトラクタブルアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-24T16:33:54Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。