論文の概要: GMAC: A Distributional Perspective on Actor-Critic Framework
- arxiv url: http://arxiv.org/abs/2105.11366v1
- Date: Mon, 24 May 2021 15:50:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 15:04:59.367833
- Title: GMAC: A Distributional Perspective on Actor-Critic Framework
- Title(参考訳): GMAC: Actor-Critic Frameworkの分布的展望
- Authors: Daniel Wontae Nam, Younghoon Kim, Chan Y. Park
- Abstract要約: 本稿では,新しいサンプル置換アルゴリズムSR($lambda$)から生成した複数ステップのベルマン目標分布を用いて,クラマー距離を最小化する手法を提案する。
我々は,GMACが値分布の正しい表現を捕捉し,計算コストの低い従来のアクター・クリティカル法の性能を向上させることを実証的に示す。
- 参考スコア(独自算出の注目度): 6.243642831536256
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we devise a distributional framework on actor-critic as a
solution to distributional instability, action type restriction, and conflation
between samples and statistics. We propose a new method that minimizes the
Cram\'er distance with the multi-step Bellman target distribution generated
from a novel Sample-Replacement algorithm denoted SR($\lambda$), which learns
the correct value distribution under multiple Bellman operations.
Parameterizing a value distribution with Gaussian Mixture Model further
improves the efficiency and the performance of the method, which we name GMAC.
We empirically show that GMAC captures the correct representation of value
distributions and improves the performance of a conventional actor-critic
method with low computational cost, in both discrete and continuous action
spaces using Arcade Learning Environment (ALE) and PyBullet environment.
- Abstract(参考訳): 本稿では,分布不安定性,行動型制限,およびサンプルと統計の衝突に対する解決策として,アクタ批判の分布的枠組みを考案する。
複数のベルマン演算の下で正しい値分布を学習するSR($\lambda$)と呼ばれる新しいサンプル置換アルゴリズムから生成した多段階ベルマン目標分布とCram\'er距離を最小化する手法を提案する。
ガウス混合モデルによる値分布のパラメータ化は、GMACと呼ばれる手法の効率と性能をさらに向上させる。
本稿では,gmacが値分布の正しい表現を捉え,アーケード学習環境 (ale) とパイブルレット環境を用いた離散的および連続的行動空間において,計算コストの低い従来のアクター・クリティック法の性能を向上させることを実証的に示す。
関連論文リスト
- Symmetric Q-learning: Reducing Skewness of Bellman Error in Online
Reinforcement Learning [55.75959755058356]
深層強化学習では、状態や行動の質を評価するために、価値関数を推定することが不可欠である。
最近の研究では、値関数を訓練する際の誤差分布はベルマン作用素の特性のためにしばしば歪むことが示唆されている。
そこで我々は,ゼロ平均分布から発生する合成ノイズを目標値に加え,ガウス誤差分布を生成するSymmetric Q-learning法を提案する。
論文 参考訳(メタデータ) (2024-03-12T14:49:19Z) - Delta-AI: Local objectives for amortized inference in sparse graphical models [64.5938437823851]
スパース確率的グラフィカルモデル(PGM)における補正推論のための新しいアルゴリズムを提案する。
提案手法は, PGMにおける変数のサンプリングをエージェントが行う一連の行動とみなす場合, エージェントのポリシー学習目的において, PGMの疎結合が局所的な信用割当を可能にするという観察に基づいている。
合成PGMからサンプリングし、スパース因子構造を持つ潜在変数モデルを訓練するための$Delta$-AIの有効性について説明する。
論文 参考訳(メタデータ) (2023-10-03T20:37:03Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Learning Distributions via Monte-Carlo Marginalization [9.131712404284876]
サンプルから抽出可能な分布を学習する新しい手法を提案する。
モンテカルロ・マルギナライゼーション(MCMarg)はこの問題に対処するために提案されている。
提案手法は複雑な分布を学習するための強力なツールであり、プロセス全体が微分可能である。
論文 参考訳(メタデータ) (2023-08-11T19:08:06Z) - Learning Sampling Distributions for Model Predictive Control [36.82905770866734]
モデル予測制御(MPC)に対するサンプリングに基づくアプローチは、MPCに対する現代のアプローチの基盤となっている。
我々は、学習された分布を最大限に活用できるように、潜在空間における全ての操作を実行することを提案する。
具体的には、学習問題を双方向の最適化として捉え、バックプロパゲーションスルータイムでコントローラをトレーニングする方法を示す。
論文 参考訳(メタデータ) (2022-12-05T20:35:36Z) - Optimization of Annealed Importance Sampling Hyperparameters [77.34726150561087]
Annealed Importance Smpling (AIS) は、深層生成モデルの難易度を推定するために使われる一般的なアルゴリズムである。
本稿では、フレキシブルな中間分布を持つパラメータAISプロセスを提案し、サンプリングに少ないステップを使用するようにブリッジング分布を最適化する。
我々は, 最適化AISの性能評価を行い, 深部生成モデルの限界推定を行い, 他の推定値と比較した。
論文 参考訳(メタデータ) (2022-09-27T07:58:25Z) - Conjugated Discrete Distributions for Distributional Reinforcement
Learning [0.0]
最も成功した方法の1つは、非決定論的プロセスがある場合、最適なポリシーを得られないことを示します。
我々は、分散強化学習が、この状況を完全に改善するのに役立つと論じている。
論文 参考訳(メタデータ) (2021-12-14T14:14:49Z) - LSB: Local Self-Balancing MCMC in Discrete Spaces [2.385916960125935]
本研究は、純粋に離散的な領域におけるサンプリング効率を向上させるために、機械学習を用いて提案された分布をターゲットに適応させることを検討する。
得られたサンプルをLSB(Locally Self-Balancing Sampler)と呼ぶ。
論文 参考訳(メタデータ) (2021-09-08T18:31:26Z) - KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。
ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。
確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文 参考訳(メタデータ) (2021-06-14T22:24:23Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。