論文の概要: Wasserstein Actor-Critic: Directed Exploration via Optimism for
Continuous-Actions Control
- arxiv url: http://arxiv.org/abs/2303.02378v1
- Date: Sat, 4 Mar 2023 10:52:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 20:05:11.219537
- Title: Wasserstein Actor-Critic: Directed Exploration via Optimism for
Continuous-Actions Control
- Title(参考訳): Wasserstein Actor-Critic: 連続反応制御のための最適化による直接探索
- Authors: Amarildo Likmeta, Matteo Sacco, Alberto Maria Metelli and Marcello
Restelli
- Abstract要約: Wasserstein Actor-Critic (WAC) は、Wasserstein Q-Learning (WQL) citepwqlにインスパイアされたアクター批判アーキテクチャである。
WACは、Q値の推定値の上限を最適化してポリシー学習プロセスを導くことによって、原則的な方法で探索を実施する。
- 参考スコア(独自算出の注目度): 41.7453231409493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Uncertainty quantification has been extensively used as a means to achieve
efficient directed exploration in Reinforcement Learning (RL). However,
state-of-the-art methods for continuous actions still suffer from high sample
complexity requirements. Indeed, they either completely lack strategies for
propagating the epistemic uncertainty throughout the updates, or they mix it
with aleatoric uncertainty while learning the full return distribution (e.g.,
distributional RL). In this paper, we propose Wasserstein Actor-Critic (WAC),
an actor-critic architecture inspired by the recent Wasserstein Q-Learning
(WQL) \citep{wql}, that employs approximate Q-posteriors to represent the
epistemic uncertainty and Wasserstein barycenters for uncertainty propagation
across the state-action space. WAC enforces exploration in a principled way by
guiding the policy learning process with the optimization of an upper bound of
the Q-value estimates. Furthermore, we study some peculiar issues that arise
when using function approximation, coupled with the uncertainty estimation, and
propose a regularized loss for the uncertainty estimation. Finally, we evaluate
our algorithm on standard MujoCo tasks as well as suite of continuous-actions
domains, where exploration is crucial, in comparison with state-of-the-art
baselines.
- Abstract(参考訳): 不確実性定量化は、強化学習(RL)における効率的な指向探索を実現する手段として広く利用されている。
しかし、継続的なアクションの最先端の手法は、依然として高いサンプル複雑さの要求に悩まされている。
実際、彼らは更新全体を通してててんかんの不確実性を伝播する戦略を全く欠いているか、あるいは完全な戻り分布(例えば、分布RL)を学習しながらアレラトリック不確実性と混合している。
本稿では,最近のWasserstein Q-Learning (WQL) \citep{wql} に触発されたアクター批判型アーキテクチャであるWasserstein Actor-Critic (WAC)を提案する。
WACは、Q値推定の上限を最適化してポリシー学習プロセスを導くことによって、原則的な方法で探索を実施する。
さらに,関数近似を用いた場合の特異な問題と不確実性推定を併用し,不確実性推定のための正規化損失を提案する。
最後に,我々のアルゴリズムを,最先端のベースラインと比較して探索が不可欠である,標準的なMujoCoタスクと一連の連続アクションドメインに基づいて評価する。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy
Optimization [63.32053223422317]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
特に、MDP上の分布によって誘導される値の分散を特徴付けることに焦点をあてる。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - Distributionally Robust Model-Based Offline Reinforcement Learning with
Near-Optimal Sample Complexity [39.886149789339335]
オフライン強化学習は、積極的に探索することなく、履歴データから意思決定を行うことを学習することを目的としている。
環境の不確実性や変動性から,デプロイされた環境が,ヒストリデータセットの収集に使用される名目上のものから逸脱した場合でも,良好に機能するロバストなポリシーを学ぶことが重要である。
オフラインRLの分布的ロバストな定式化を考察し、有限水平および無限水平の両方でクルバック・リーブラー発散によって指定された不確実性セットを持つロバストマルコフ決定過程に着目する。
論文 参考訳(メタデータ) (2022-08-11T11:55:31Z) - Non-asymptotic Confidence Intervals of Off-policy Evaluation: Primal and
Dual Bounds [21.520045697447372]
オフ・ポリティィ・アセスメント(OPE)は、以前異なるポリシーの下で収集されたオフラインデータに基づいて、所定のポリシーの期待される報酬を推定するタスクである。
本研究は,非漸近的信頼区間を無限ホリゾンオフポリシー評価で構築する問題を考える。
原始双対最適化に基づく実践的アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-03-09T22:31:20Z) - Temporal Difference Uncertainties as a Signal for Exploration [76.6341354269013]
強化学習における探索の効果的なアプローチは、最適な政策に対するエージェントの不確実性に依存することである。
本稿では,評価値のバイアスや時間的に矛盾する点を強調した。
本稿では,時間差誤差の分布の導出に依存する値関数の不確かさを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-10-05T18:11:22Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。