論文の概要: Implicit Distributional Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2007.06159v2
- Date: Mon, 19 Oct 2020 20:23:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 22:46:21.871603
- Title: Implicit Distributional Reinforcement Learning
- Title(参考訳): 帰納的分散強化学習
- Authors: Yuguang Yue, Zhendong Wang, Mingyuan Zhou
- Abstract要約: 2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
- 参考スコア(独自算出の注目度): 61.166030238490634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To improve the sample efficiency of policy-gradient based reinforcement
learning algorithms, we propose implicit distributional actor-critic (IDAC)
that consists of a distributional critic, built on two deep generator networks
(DGNs), and a semi-implicit actor (SIA), powered by a flexible policy
distribution. We adopt a distributional perspective on the discounted
cumulative return and model it with a state-action-dependent implicit
distribution, which is approximated by the DGNs that take state-action pairs
and random noises as their input. Moreover, we use the SIA to provide a
semi-implicit policy distribution, which mixes the policy parameters with a
reparameterizable distribution that is not constrained by an analytic density
function. In this way, the policy's marginal distribution is implicit,
providing the potential to model complex properties such as covariance
structure and skewness, but its parameter and entropy can still be estimated.
We incorporate these features with an off-policy algorithm framework to solve
problems with continuous action space and compare IDAC with state-of-the-art
algorithms on representative OpenAI Gym environments. We observe that IDAC
outperforms these baselines in most tasks. Python code is provided.
- Abstract(参考訳): そこで我々は,2つのディープジェネレータネットワーク(DGN)上に構築された分布評論家と,フレキシブルなポリシ分布を利用した半単純アクタ(SIA)からなる暗黙的な分布型アクタ批判(IDAC)を提案する。
我々は、割引累積リターンの分布的視点を採用し、状態-作用対とランダムノイズを入力とするDGNによって近似された状態-作用依存型暗黙分布をモデル化する。
さらに,SIAを用いて,政策パラメータと解析密度関数に制約されない再パラメータ化可能な分布とを混合した半単純ポリシ分布を提供する。
このように、ポリシーの限界分布は暗黙的であり、共分散構造や歪性のような複雑な性質をモデル化する可能性を提供するが、そのパラメータとエントロピーは依然として推定できる。
これらの特徴を非政治的なアルゴリズムフレームワークに組み込んで、連続的なアクション空間の問題を解決するとともに、代表的OpenAI Gym環境におけるIDACと最先端のアルゴリズムを比較する。
idacは、ほとんどのタスクでこれらのベースラインよりも優れています。
pythonコードが提供される。
関連論文リスト
- A Distributional Analogue to the Successor Representation [53.03619419915546]
本稿では,分散強化学習のための新しい手法を提案する。
学習プロセスにおける遷移構造と報酬のクリーンな分離を解明する。
実例として,ゼロショットリスクに敏感な政策評価が可能であることを示す。
論文 参考訳(メタデータ) (2024-02-13T15:35:24Z) - Score-Aware Policy-Gradient Methods and Performance Guarantees using
Local Lyapunov Conditions: Applications to Product-Form Stochastic Networks
and Queueing Systems [1.8749305679160366]
スコア・アウェア・グラデーションMD(SAGE)と呼ばれるMDPの勾配の新たなファミリーを導入する。
決定の定常分布が指数族に属する場合、SAGEは値-関数推定なしで政策勾配を推定できる。
適切な仮定の下では、適切なポリシーに十分近づき始めた場合に、ポリシー段階の手法が最適なポリシーに大きく収束していることが示される。
論文 参考訳(メタデータ) (2023-12-05T14:44:58Z) - Delta-AI: Local objectives for amortized inference in sparse graphical models [64.5938437823851]
スパース確率的グラフィカルモデル(PGM)における補正推論のための新しいアルゴリズムを提案する。
提案手法は, PGMにおける変数のサンプリングをエージェントが行う一連の行動とみなす場合, エージェントのポリシー学習目的において, PGMの疎結合が局所的な信用割当を可能にするという観察に基づいている。
合成PGMからサンプリングし、スパース因子構造を持つ潜在変数モデルを訓練するための$Delta$-AIの有効性について説明する。
論文 参考訳(メタデータ) (2023-10-03T20:37:03Z) - Strategic Distribution Shift of Interacting Agents via Coupled Gradient
Flows [6.064702468344376]
実世界のシステムにおける分散シフトのダイナミクスを解析するための新しいフレームワークを提案する。
より単純なモデルでは捉えられない偏極や異なる影響といった、よく文書化された形態の分布シフトを捉える手法を示す。
論文 参考訳(メタデータ) (2023-07-03T17:18:50Z) - Compressed Regression over Adaptive Networks [58.79251288443156]
分散エージェントのネットワークによって達成可能な性能を導出し,通信制約や回帰問題を解消し,適応的に解決する。
エージェントによって最適化に必要なパラメータをオンラインで学習できる最適化アロケーション戦略を考案する。
論文 参考訳(メタデータ) (2023-04-07T13:41:08Z) - Distributional Hamilton-Jacobi-Bellman Equations for Continuous-Time
Reinforcement Learning [39.07307690074323]
本研究では,連続した環境下で対話するエージェントによって得られるリターンの分布を予測することの問題点を考察する。
正確なリターン予測は、リスクに敏感な制御、状態表現、マルチエージェント調整などのための最適なポリシーを決定するのに有用であることが証明されている。
本稿では、オンライン制御アルゴリズムで実装可能なJKOスキームに基づいて、分布HJBを近似的に解くことのできるトラクタブルアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-24T16:33:54Z) - GMAC: A Distributional Perspective on Actor-Critic Framework [6.243642831536256]
本稿では,新しいサンプル置換アルゴリズムSR($lambda$)から生成した複数ステップのベルマン目標分布を用いて,クラマー距離を最小化する手法を提案する。
我々は,GMACが値分布の正しい表現を捕捉し,計算コストの低い従来のアクター・クリティカル法の性能を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2021-05-24T15:50:26Z) - Dealing with Non-Stationarity in Multi-Agent Reinforcement Learning via
Trust Region Decomposition [52.06086375833474]
非定常性は多エージェント強化学習における厄介な問題である。
ポリシーシーケンスの定常性を明示的にモデル化するための$delta$-stationarity測定を導入する。
共同政策の分岐を推定するために,メッセージパッシングに基づく信頼領域分解ネットワークを提案する。
論文 参考訳(メタデータ) (2021-02-21T14:46:50Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。