Fugu-MT 論文翻訳(概要): Reinforcement learning with experience replay and adaptation of action dispersion

論文の概要: Reinforcement learning with experience replay and adaptation of action dispersion

arxiv url: http://arxiv.org/abs/2208.00156v1
Date: Sat, 30 Jul 2022 07:44:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-02 14:10:02.164287
Title: Reinforcement learning with experience replay and adaptation of action dispersion
Title（参考訳）: 経験的リプレイによる強化学習と行動分散の適応
Authors: Pawe{\l} Wawrzy\'nski, Wojciech Masarczyk, Mateusz Ostaszewski
Abstract要約: 行動分布は、将来の政策を評価するのに十分な分散性を持つべきである。提案手法は,動作標準偏差を試行錯誤最適化の結果と類似した値に収束させる。
参考スコア（独自算出の注目度）: 2.578242050187029
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Effective reinforcement learning requires a proper balance of exploration and exploitation defined by the dispersion of action distribution. However, this balance depends on the task, the current stage of the learning process, and the current environment state. Existing methods that designate the action distribution dispersion require problem-dependent hyperparameters. In this paper, we propose to automatically designate the action distribution dispersion using the following principle: This distribution should have sufficient dispersion to enable the evaluation of future policies. To that end, the dispersion should be tuned to assure a sufficiently high probability (densities) of the actions in the replay buffer and the modes of the distributions that generated them, yet this dispersion should not be higher. This way, a policy can be effectively evaluated based on the actions in the buffer, but exploratory randomness in actions decreases when this policy converges. The above principle is verified here on challenging benchmarks Ant, HalfCheetah, Hopper, and Walker2D, with good results. Our method makes the action standard deviations converge to values similar to those resulting from trial-and-error optimization.
Abstract（参考訳）: 効果的な強化学習は、行動分布の分散によって定義される探索と利用の適切なバランスを必要とする。しかし、このバランスはタスク、学習過程の現在の段階、そして現在の環境状態に依存する。作用分布の分散を示す既存の方法は問題依存のハイパーパラメータを必要とする。本稿では,次の原則を用いて,行動分布の分散を自動的に定義することを提案する。そのため、この分散は、再生バッファ内の動作の十分な高い確率(密度)と、それらを生成する分布のモードを保証するように調整されるべきであるが、この分散は高くはならない。このように、バッファ内のアクションに基づいてポリシーを効果的に評価することができるが、このポリシーが収束すると、アクションの探索的ランダム性が減少する。上記の原則は、ant、halfcheetah、hopper、walker2dといった挑戦的なベンチマークで検証されています。提案手法は,動作標準偏差を試行錯誤最適化の結果と類似した値に収束させる。

関連論文リスト

VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL [28.95582264086289]
VAlue-based Reinforced Diffusion (VARD) は、中間状態から報酬の期待を予測する値関数を初めて学習する新しい手法である。提案手法は,バックプロパゲーションによる効果的な,安定したトレーニングを可能にしつつ,事前訓練されたモデルに近づき続ける。
論文参考訳（メタデータ） (2025-05-21T17:44:37Z)
Conditioning Matters: Training Diffusion Policies is Faster Than You Think [69.31534053485711]
拡散政策は、視覚言語アクション(VLA)モデルを構築するための主流パラダイムとして登場した。条件拡散政策訓練の基本的な課題は, 生成条件の識別が困難である場合, 訓練対象が限界行動分布をモデル化することである。条件に依存しない条件付きフローマッチングにおけるソース分布を変更するソリューションであるCocosを提案する。
論文参考訳（メタデータ） (2025-05-16T11:14:22Z)
Regression Discontinuity Design with Distribution-Valued Outcomes [0.0]
本稿では,Regression Discontinuity Design (RDD)について紹介する。標準のRDDフレームワークを、結果がスカラーではなく分散であるような設定に拡張する。次に,提案手法を適用して,アメリカ合衆国における州内所得分布に対する州知事統制の効果について検討する。
論文参考訳（メタデータ） (2025-04-04T23:12:35Z)
Counterfactual Realizability [52.85109506684737]
本稿では, 正規化可能性の定義, 分布からサンプルを抽出する能力を導入し, 任意の反事実分布が実現可能であるかどうかを判定する完全アルゴリズムを開発する。本稿では、因果的公正さと因果的強化学習のモチベーション例を用いて、この新たな反ファクト的データ収集フレームワークの意義を説明する。
論文参考訳（メタデータ） (2025-03-14T20:54:27Z)
Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
本報告では,明示的な次元の一般スコアミスマッチ拡散サンプリング器を用いた最初の性能保証について述べる。その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文参考訳（メタデータ） (2024-10-17T16:42:12Z)
Probabilistic Conformal Prediction with Approximate Conditional Validity [81.30551968980143]
本研究では,共形手法の柔軟性と条件分布の推定を組み合わせ,予測セットを生成する手法を開発した。我々の手法は、条件付きカバレッジの観点から既存の手法よりも一貫して優れています。
論文参考訳（メタデータ） (2024-07-01T20:44:48Z)
Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文参考訳（メタデータ） (2024-05-25T10:45:46Z)
Diffusion Actor-Critic with Entropy Regulator [32.79341490514616]
エントロピーレギュレータ(DACER)を用いたオンラインRLアルゴリズムについて提案する。このアルゴリズムは拡散モデルの逆過程を新しい政策関数として概念化する。 MuJoCoベンチマークとマルチモーダルタスクの実験は、DACERアルゴリズムが最先端(SOTA)性能を達成することを示す。
論文参考訳（メタデータ） (2024-05-24T03:23:27Z)
Off-Policy Evaluation in Markov Decision Processes under Weak Distributional Overlap [5.0401589279256065]
本稿では,マルコフ決定過程(MDP)における非政治的評価の課題を再検討する。本稿では,この環境での良好な性能を期待できる2重頑健性(TDR)推定器のクラスを紹介する。
論文参考訳（メタデータ） (2024-02-13T03:55:56Z)
Adaptive Annealed Importance Sampling with Constant Rate Progress [68.8204255655161]
Annealed Importance Smpling (AIS)は、抽出可能な分布から重み付けされたサンプルを合成する。本稿では,alpha$-divergencesに対する定数レートAISアルゴリズムとその効率的な実装を提案する。
論文参考訳（メタデータ） (2023-06-27T08:15:28Z)
Flow Away your Differences: Conditional Normalizing Flows as an Improvement to Reweighting [0.0]
本稿では, 条件分布の所望の変化を考慮に入れた再重み付け手法の代替手法を提案する。条件付き正規化フローを用いて、完全条件付き確率分布を学習する。この例では、ソースとターゲットの分布を同一のサンプルサイズで再重み付けする手法よりも、統計精度が最大3倍に向上する。
論文参考訳（メタデータ） (2023-04-28T16:33:50Z)
GANISP: a GAN-assisted Importance SPlitting Probability Estimator [0.0]
提案したGANISP(GANISP)は,対象とするシステムの分散化を改善する。メソッドの実装は、コンパニオンリポジトリで利用可能である。
論文参考訳（メタデータ） (2021-12-28T17:13:37Z)
KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文参考訳（メタデータ） (2021-06-14T22:24:23Z)
DisCor: Corrective Feedback in Reinforcement Learning via Distribution Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文参考訳（メタデータ） (2020-03-16T16:18:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。