論文の概要: Reinforcement learning with experience replay and adaptation of action
dispersion
- arxiv url: http://arxiv.org/abs/2208.00156v1
- Date: Sat, 30 Jul 2022 07:44:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 14:10:02.164287
- Title: Reinforcement learning with experience replay and adaptation of action
dispersion
- Title(参考訳): 経験的リプレイによる強化学習と行動分散の適応
- Authors: Pawe{\l} Wawrzy\'nski, Wojciech Masarczyk, Mateusz Ostaszewski
- Abstract要約: 行動分布は、将来の政策を評価するのに十分な分散性を持つべきである。
提案手法は,動作標準偏差を試行錯誤最適化の結果と類似した値に収束させる。
- 参考スコア(独自算出の注目度): 2.578242050187029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective reinforcement learning requires a proper balance of exploration and
exploitation defined by the dispersion of action distribution. However, this
balance depends on the task, the current stage of the learning process, and the
current environment state. Existing methods that designate the action
distribution dispersion require problem-dependent hyperparameters. In this
paper, we propose to automatically designate the action distribution dispersion
using the following principle: This distribution should have sufficient
dispersion to enable the evaluation of future policies. To that end, the
dispersion should be tuned to assure a sufficiently high probability
(densities) of the actions in the replay buffer and the modes of the
distributions that generated them, yet this dispersion should not be higher.
This way, a policy can be effectively evaluated based on the actions in the
buffer, but exploratory randomness in actions decreases when this policy
converges. The above principle is verified here on challenging benchmarks Ant,
HalfCheetah, Hopper, and Walker2D, with good results. Our method makes the
action standard deviations converge to values similar to those resulting from
trial-and-error optimization.
- Abstract(参考訳): 効果的な強化学習は、行動分布の分散によって定義される探索と利用の適切なバランスを必要とする。
しかし、このバランスはタスク、学習過程の現在の段階、そして現在の環境状態に依存する。
作用分布の分散を示す既存の方法は問題依存のハイパーパラメータを必要とする。
本稿では,次の原則を用いて,行動分布の分散を自動的に定義することを提案する。
そのため、この分散は、再生バッファ内の動作の十分な高い確率(密度)と、それらを生成する分布のモードを保証するように調整されるべきであるが、この分散は高くはならない。
このように、バッファ内のアクションに基づいてポリシーを効果的に評価することができるが、このポリシーが収束すると、アクションの探索的ランダム性が減少する。
上記の原則は、ant、halfcheetah、hopper、walker2dといった挑戦的なベンチマークで検証されています。
提案手法は,動作標準偏差を試行錯誤最適化の結果と類似した値に収束させる。
関連論文リスト
- Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
本報告では,明示的な次元の一般スコアミスマッチ拡散サンプリング器を用いた最初の性能保証について述べる。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Probabilistic Conformal Prediction with Approximate Conditional Validity [81.30551968980143]
本研究では,共形手法の柔軟性と条件分布の推定を組み合わせ,予測セットを生成する手法を開発した。
我々の手法は、条件付きカバレッジの観点から既存の手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-07-01T20:44:48Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Diffusion Actor-Critic with Entropy Regulator [32.79341490514616]
エントロピーレギュレータ(DACER)を用いたオンラインRLアルゴリズムについて提案する。
このアルゴリズムは拡散モデルの逆過程を新しい政策関数として概念化する。
MuJoCoベンチマークとマルチモーダルタスクの実験は、DACERアルゴリズムが最先端(SOTA)性能を達成することを示す。
論文 参考訳(メタデータ) (2024-05-24T03:23:27Z) - Off-Policy Evaluation in Markov Decision Processes under Weak
Distributional Overlap [5.0401589279256065]
本稿では,マルコフ決定過程(MDP)における非政治的評価の課題を再検討する。
本稿では,この環境での良好な性能を期待できる2重頑健性(TDR)推定器のクラスを紹介する。
論文 参考訳(メタデータ) (2024-02-13T03:55:56Z) - Adaptive Annealed Importance Sampling with Constant Rate Progress [68.8204255655161]
Annealed Importance Smpling (AIS)は、抽出可能な分布から重み付けされたサンプルを合成する。
本稿では,alpha$-divergencesに対する定数レートAISアルゴリズムとその効率的な実装を提案する。
論文 参考訳(メタデータ) (2023-06-27T08:15:28Z) - Flow Away your Differences: Conditional Normalizing Flows as an
Improvement to Reweighting [0.0]
本稿では, 条件分布の所望の変化を考慮に入れた再重み付け手法の代替手法を提案する。
条件付き正規化フローを用いて、完全条件付き確率分布を学習する。
この例では、ソースとターゲットの分布を同一のサンプルサイズで再重み付けする手法よりも、統計精度が最大3倍に向上する。
論文 参考訳(メタデータ) (2023-04-28T16:33:50Z) - GANISP: a GAN-assisted Importance SPlitting Probability Estimator [0.0]
提案したGANISP(GANISP)は,対象とするシステムの分散化を改善する。
メソッドの実装は、コンパニオンリポジトリで利用可能である。
論文 参考訳(メタデータ) (2021-12-28T17:13:37Z) - KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。
ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。
確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文 参考訳(メタデータ) (2021-06-14T22:24:23Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。