論文の概要: Reinforcement learning with experience replay and adaptation of action
dispersion
- arxiv url: http://arxiv.org/abs/2208.00156v1
- Date: Sat, 30 Jul 2022 07:44:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 14:10:02.164287
- Title: Reinforcement learning with experience replay and adaptation of action
dispersion
- Title(参考訳): 経験的リプレイによる強化学習と行動分散の適応
- Authors: Pawe{\l} Wawrzy\'nski, Wojciech Masarczyk, Mateusz Ostaszewski
- Abstract要約: 行動分布は、将来の政策を評価するのに十分な分散性を持つべきである。
提案手法は,動作標準偏差を試行錯誤最適化の結果と類似した値に収束させる。
- 参考スコア(独自算出の注目度): 2.578242050187029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective reinforcement learning requires a proper balance of exploration and
exploitation defined by the dispersion of action distribution. However, this
balance depends on the task, the current stage of the learning process, and the
current environment state. Existing methods that designate the action
distribution dispersion require problem-dependent hyperparameters. In this
paper, we propose to automatically designate the action distribution dispersion
using the following principle: This distribution should have sufficient
dispersion to enable the evaluation of future policies. To that end, the
dispersion should be tuned to assure a sufficiently high probability
(densities) of the actions in the replay buffer and the modes of the
distributions that generated them, yet this dispersion should not be higher.
This way, a policy can be effectively evaluated based on the actions in the
buffer, but exploratory randomness in actions decreases when this policy
converges. The above principle is verified here on challenging benchmarks Ant,
HalfCheetah, Hopper, and Walker2D, with good results. Our method makes the
action standard deviations converge to values similar to those resulting from
trial-and-error optimization.
- Abstract(参考訳): 効果的な強化学習は、行動分布の分散によって定義される探索と利用の適切なバランスを必要とする。
しかし、このバランスはタスク、学習過程の現在の段階、そして現在の環境状態に依存する。
作用分布の分散を示す既存の方法は問題依存のハイパーパラメータを必要とする。
本稿では,次の原則を用いて,行動分布の分散を自動的に定義することを提案する。
そのため、この分散は、再生バッファ内の動作の十分な高い確率(密度)と、それらを生成する分布のモードを保証するように調整されるべきであるが、この分散は高くはならない。
このように、バッファ内のアクションに基づいてポリシーを効果的に評価することができるが、このポリシーが収束すると、アクションの探索的ランダム性が減少する。
上記の原則は、ant、halfcheetah、hopper、walker2dといった挑戦的なベンチマークで検証されています。
提案手法は,動作標準偏差を試行錯誤最適化の結果と類似した値に収束させる。
関連論文リスト
- Uncertainty Quantification via Stable Distribution Propagation [60.065272548502]
本稿では,ニューラルネットワークによる安定確率分布の伝播手法を提案する。
提案手法は局所線形化に基づいており,ReLU非線型性に対する全変動距離の近似値として最適であることを示す。
論文 参考訳(メタデータ) (2024-02-13T09:40:19Z) - Off-Policy Evaluation in Markov Decision Processes under Weak
Distributional Overlap [5.0401589279256065]
本稿では,マルコフ決定過程(MDP)における非政治的評価の課題を再検討する。
本稿では,この環境での良好な性能を期待できる2重頑健性(TDR)推定器のクラスを紹介する。
論文 参考訳(メタデータ) (2024-02-13T03:55:56Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Adaptive Annealed Importance Sampling with Constant Rate Progress [68.8204255655161]
Annealed Importance Smpling (AIS)は、抽出可能な分布から重み付けされたサンプルを合成する。
本稿では,alpha$-divergencesに対する定数レートAISアルゴリズムとその効率的な実装を提案する。
論文 参考訳(メタデータ) (2023-06-27T08:15:28Z) - Flow Away your Differences: Conditional Normalizing Flows as an
Improvement to Reweighting [0.0]
本稿では, 条件分布の所望の変化を考慮に入れた再重み付け手法の代替手法を提案する。
条件付き正規化フローを用いて、完全条件付き確率分布を学習する。
この例では、ソースとターゲットの分布を同一のサンプルサイズで再重み付けする手法よりも、統計精度が最大3倍に向上する。
論文 参考訳(メタデータ) (2023-04-28T16:33:50Z) - Deep Anti-Regularized Ensembles provide reliable out-of-distribution
uncertainty quantification [4.750521042508541]
深層アンサンブルは、しばしばトレーニングドメインの外で過度に信頼された見積を返す。
トレーニングデータに適合する大きな重みを持つネットワークの集合は、これらの2つの目的を満たす可能性が高いことを示す。
提案手法の理論的枠組みを導出し,提案手法を「水充填問題」とみなすことができることを示す。
論文 参考訳(メタデータ) (2023-04-08T15:25:12Z) - A Deep Reinforcement Learning Approach to Rare Event Estimation [30.670114229970526]
自律システムの設計における重要なステップは、失敗が起こる確率を評価することである。
安全クリティカルな領域では、モンテカルロサンプリングによる政策の評価が非効率であるように、失敗確率は非常に小さい。
逐次意思決定システムにおいて、稀な事象の確率を効率的に推定できる2つの適応的重要度サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-11-22T18:29:14Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - GANISP: a GAN-assisted Importance SPlitting Probability Estimator [0.0]
提案したGANISP(GANISP)は,対象とするシステムの分散化を改善する。
メソッドの実装は、コンパニオンリポジトリで利用可能である。
論文 参考訳(メタデータ) (2021-12-28T17:13:37Z) - KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。
ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。
確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文 参考訳(メタデータ) (2021-06-14T22:24:23Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。