論文の概要: Exploration with Multi-Sample Target Values for Distributional
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2202.02693v1
- Date: Sun, 6 Feb 2022 03:27:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 14:16:24.830498
- Title: Exploration with Multi-Sample Target Values for Distributional
Reinforcement Learning
- Title(参考訳): 分布強化学習のためのマルチサンプル目標値を用いた探索
- Authors: Michael Teng, Michiel van de Panne, Frank Wood
- Abstract要約: 分散RLのマルチサンプル目標値(MTV)を,単一サンプル目標値推定の原則的代替として導入する。
改良された分布推定は UCB ベースの探査に寄与する。
我々は,一連の連続制御タスクに対するアプローチを評価し,ヒューマノイド制御のような難易度の高いタスクに対して,最先端のモデルフリー性能を示す。
- 参考スコア(独自算出の注目度): 20.680417111485305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributional reinforcement learning (RL) aims to learn a value-network that
predicts the full distribution of the returns for a given state, often modeled
via a quantile-based critic. This approach has been successfully integrated
into common RL methods for continuous control, giving rise to algorithms such
as Distributional Soft Actor-Critic (DSAC). In this paper, we introduce
multi-sample target values (MTV) for distributional RL, as a principled
replacement for single-sample target value estimation, as commonly employed in
current practice. The improved distributional estimates further lend themselves
to UCB-based exploration. These two ideas are combined to yield our
distributional RL algorithm, E2DC (Extra Exploration with Distributional
Critics). We evaluate our approach on a range of continuous control tasks and
demonstrate state-of-the-art model-free performance on difficult tasks such as
Humanoid control. We provide further insight into the method via visualization
and analysis of the learned distributions and their evolution during training.
- Abstract(参考訳): 分散強化学習(Retributal reinforcement learning, RL)は、ある状態に対するリターンの完全な分布を予測するバリューネットワークを学習することを目的としている。
このアプローチは、連続制御のための共通RL手法にうまく統合され、分散ソフトアクター批判(DSAC)のようなアルゴリズムが生まれている。
本稿では,分散RLのマルチサンプル目標値(MTV)を,現在一般的に使われている単一サンプル目標値推定の原則的代替として導入する。
改良された分布推定は UCB ベースの探査にさらに寄与する。
これらの2つのアイデアを組み合わせることで、分布的RLアルゴリズムであるE2DC(Extra Exploration with Distributional Critics)が得られる。
我々は,様々な連続制御タスクに対するアプローチを評価し,ヒューマノイド制御などの困難なタスクにおける最先端のモデルフリーパフォーマンスを実証する。
本研究は,訓練中の学習分布とその進化を可視化し,解析することにより,その方法に関するさらなる知見を提供する。
関連論文リスト
- Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques [65.55451717632317]
我々は,MARLHF(Multi-Agent Reinforcement Learning from Human Feedback)について検討し,理論的基礎と実証的検証の両方について検討した。
我々は,このタスクを,一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ均衡を識別するものとして定義する。
本研究は,MARLHFの多面的アプローチを基礎として,効果的な嗜好に基づくマルチエージェントシステムの実現を目指している。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - CTD4 -- A Deep Continuous Distributional Actor-Critic Agent with a Kalman Fusion of Multiple Critics [2.229467987498053]
CDRL(Categorical Distributional Reinforcement Learning)は,複雑なタスクの学習において,より優れたサンプル効率を示す。
本稿では,連続行動空間に適した連続分布モデル自由RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-04T05:38:38Z) - Distributional Reinforcement Learning with Dual Expectile-Quantile Regression [51.87411935256015]
分布RLに対する量子レグレッションアプローチは、任意の戻り分布を柔軟かつ効果的に学習する方法を提供する。
我々は,分布保証が消えることを示し,推定分布が急速に崩壊して平均推定値が崩壊することを実証的に観察する。
提案手法は,$L$の学習効率を生かして,返却分布の予測値と量子化値とを協調的に学習し,返却分布の完全な分布を推定し,効率的な学習を可能にするものである。
論文 参考訳(メタデータ) (2023-05-26T12:30:05Z) - One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。
当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。
ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T06:57:00Z) - Normality-Guided Distributional Reinforcement Learning for Continuous
Control [16.324313304691426]
平均戻り値の予測モデル、すなわち値関数の学習は多くの強化学習アルゴリズムにおいて重要な役割を果たす。
本研究では,複数の連続制御タスクにおける値分布について検討し,学習した値分布が正規に非常に近いことを示す。
本稿では,標準値関数に存在しない値分布の構造的特性によって測定された正当性に基づくポリシー更新戦略を提案する。
論文 参考訳(メタデータ) (2022-08-28T02:52:10Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z) - Bayesian Distributional Policy Gradients [2.28438857884398]
分布強化学習は、報酬対移動の確率分布全体を維持する。
返品だ
Bayesian Distributional Policy Gradients (BDPG) は、共同コントラスト学習における逆行訓練を用いて、リターンから変動後部を推定する。
論文 参考訳(メタデータ) (2021-03-20T23:42:50Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z) - Global Distance-distributions Separation for Unsupervised Person
Re-identification [93.39253443415392]
既存の教師なしのReIDアプローチは、距離ベースのマッチング/ランク付けを通じて正のサンプルと負のサンプルを正しく識別するのに失敗することが多い。
本研究では,2つの分布に対する大域的距離分布分離の制約を導入し,大域的視点から正と負のサンプルを明確に分離することを奨励する。
本研究では,本手法がベースラインを大幅に改善し,最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2020-06-01T07:05:39Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z) - Ready Policy One: World Building Through Active Learning [35.358315617358976]
本稿では,モデルに基づく強化学習を積極的学習問題とみなすフレームワークであるReady Policy One(RP1)を紹介する。
RP1は、最適化中に重要な適応を行うハイブリッド目的関数を利用することで、これを実現する。
本手法を各種連続制御タスクにおいて厳密に評価し,既存手法に比べて統計的に有意な向上を示した。
論文 参考訳(メタデータ) (2020-02-07T09:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。