論文の概要: Diversity Actor-Critic: Sample-Aware Entropy Regularization for
Sample-Efficient Exploration
- arxiv url: http://arxiv.org/abs/2006.01419v2
- Date: Wed, 9 Jun 2021 03:05:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 23:08:20.308073
- Title: Diversity Actor-Critic: Sample-Aware Entropy Regularization for
Sample-Efficient Exploration
- Title(参考訳): ダイバーシティアクター・クライブ:サンプル効率な探索のためのサンプル認識エントロピー正規化
- Authors: Seungyul Han, Youngchul Sung
- Abstract要約: 提案したサンプル認識エントロピー正規化は、リプレイバッファから取得可能なサンプル分布をエクスプロイトすることにより、ポリシーアクション分布の重み付け和のエントロピーを最大化し、リプレイバッファからのサンプルアクション分布を最大化し、サンプリング効率の高い探索を行う。
提案したサンプル認識エントロピー正則化を用いて,目的関数にポリシー反復を適用することで,多様性アクタクリティカル (DAC) という実用的なアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 22.539300644593936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, sample-aware policy entropy regularization is proposed to
enhance the conventional policy entropy regularization for better exploration.
Exploiting the sample distribution obtainable from the replay buffer, the
proposed sample-aware entropy regularization maximizes the entropy of the
weighted sum of the policy action distribution and the sample action
distribution from the replay buffer for sample-efficient exploration. A
practical algorithm named diversity actor-critic (DAC) is developed by applying
policy iteration to the objective function with the proposed sample-aware
entropy regularization. Numerical results show that DAC significantly
outperforms existing recent algorithms for reinforcement learning.
- Abstract(参考訳): 本稿では,従来の政策エントロピー正規化を強化するために,サンプル対応ポリシエントロピー正規化を提案する。
リプレイバッファから得られるサンプル分布を活用し、提案するサンプル認識エントロピー正規化により、リプレイバッファからのポリシーアクション分布の重み付き和とサンプルアクション分布のエントロピーを最大化し、サンプル効率の高い探索を行う。
提案したサンプル認識エントロピー正則化を用いて,目的関数にポリシー反復を適用することで,多様性アクタクリティカル (DAC) という実用的なアルゴリズムを開発した。
数値解析の結果,DACは強化学習のアルゴリズムよりも優れていた。
関連論文リスト
- Discrete Probabilistic Inference as Control in Multi-path Environments [90.83845885651986]
本稿では,離散分布と構造化分布からサンプリングする問題を逐次決定問題として考察する。
我々は,GFlowNetが,フローの保存を強制することによって,報酬に比例してオブジェクトをサンプリングするポリシーを学習していることを示す。
また、GFlowNetの文献で見られるフローマッチングの目的が、精度の高いMaxEnt RLアルゴリズムと等価であることも証明した。
論文 参考訳(メタデータ) (2024-02-15T20:20:35Z) - On diffusion models for amortized inference: Benchmarking and improving
stochastic control and sampling [96.7808454149545]
本研究では,非正規化密度やエネルギー関数を持つ分布からサンプルを抽出する拡散モデルの訓練問題について検討する。
シミュレーションに基づく変分法や非政治手法など,拡散構造推論手法のベンチマークを行った。
我々の結果は、過去の研究の主張に疑問を投げかけながら、既存のアルゴリズムの相対的な利点を浮き彫りにした。
論文 参考訳(メタデータ) (2024-02-07T18:51:49Z) - Frugal Actor-Critic: Sample Efficient Off-Policy Deep Reinforcement
Learning Using Unique Experiences [8.983448736644382]
リプレイバッファの効率的な利用は、非政治アクター-犯罪強化学習(RL)アルゴリズムにおいて重要な役割を担っている。
本稿では,ユニークなサンプルを選択してリプレイバッファに追加することに焦点を当てた,サンプル効率を実現する手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T10:04:00Z) - Conditional Sampling of Variational Autoencoders via Iterated
Approximate Ancestral Sampling [7.357511266926065]
変分オートエンコーダ(VAE)の条件付きサンプリングは、データ計算の欠如など、様々なアプリケーションで必要とされるが、計算上は難解である。
基本的条件付きサンプリングはMetropolis-within-Gibbs (MWG)である
論文 参考訳(メタデータ) (2023-08-17T16:08:18Z) - Sample Dropout: A Simple yet Effective Variance Reduction Technique in
Deep Policy Optimization [18.627233013208834]
重要度サンプリングを用いることで, 目的推定値に高いばらつきが生じる可能性が示唆された。
そこで本研究では, サンプルの偏差が高すぎる場合に, サンプルをドロップアウトすることで, 推定分散を束縛する, サンプルドロップアウトと呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2023-02-05T04:44:35Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Adaptive Experience Selection for Policy Gradient [8.37609145576126]
経験的再生は、サンプル効率を改善するために一般的に使用されるアプローチである。
過去の軌跡を用いた勾配推定器は、通常、高いばらつきを持つ。
統一サンプリングや優先経験リプレイのような経験リプレイのための既存のサンプリング戦略は、勾配推定のばらつきを明示的に制御しようとするものではない。
本稿では,オンライン学習アルゴリズムである適応的経験選択(AES)を提案し,この分散を明示的に最小化する経験サンプリング分布を適応的に学習する。
論文 参考訳(メタデータ) (2020-02-17T13:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。