論文の概要: Invariance to Quantile Selection in Distributional Continuous Control
- arxiv url: http://arxiv.org/abs/2212.14262v1
- Date: Thu, 29 Dec 2022 11:11:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 15:39:21.721711
- Title: Invariance to Quantile Selection in Distributional Continuous Control
- Title(参考訳): 分散連続制御における量子選択の不変性
- Authors: Felix Gr\"un, Muhammad Saif-ur-Rehman, Tobias Glasmachers, Ioannis
Iossifidis
- Abstract要約: 離散的行動空間に対する手法の相対的性能が連続ケースに変換されるかどうかを考察する。
本結果は, 決定論的かつ連続的な作用条件における分布原子の数と配置に関する定性的不変性を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In recent years distributional reinforcement learning has produced many state
of the art results. Increasingly sample efficient Distributional algorithms for
the discrete action domain have been developed over time that vary primarily in
the way they parameterize their approximations of value distributions, and how
they quantify the differences between those distributions. In this work we
transfer three of the most well-known and successful of those algorithms
(QR-DQN, IQN and FQF) to the continuous action domain by extending two powerful
actor-critic algorithms (TD3 and SAC) with distributional critics. We
investigate whether the relative performance of the methods for the discrete
action space translates to the continuous case. To that end we compare them
empirically on the pybullet implementations of a set of continuous control
tasks. Our results indicate qualitative invariance regarding the number and
placement of distributional atoms in the deterministic, continuous action
setting.
- Abstract(参考訳): 近年,分散強化学習が多くの成果を生み出している。
離散的行動領域に対するサンプル効率的な分布アルゴリズムは、値分布の近似のパラメータ化やそれらの分布の違いの定量化など、時間とともに開発されてきた。
本研究では,これらのアルゴリズムのうち3つ(QR-DQN,IQN,FQF)を,分散評論家による2つの強力なアクタ批判アルゴリズム(TD3,SAC)を拡張して連続アクション領域に転送する。
離散的行動空間に対する手法の相対的性能が連続ケースに変換されるかどうかを検討する。
そのために、一連の連続制御タスクのpybullet実装を実証的に比較する。
本研究は, 決定論的連続的動作設定における分布原子の数と配置に関する質的不変性を示す。
関連論文リスト
- Continuous Invariance Learning [37.5006565403112]
既存の不変学習手法が連続的なドメイン問題に失敗する可能性があることを示す。
本研究では、連続的なインデックス付きドメイン間で不変な特徴を抽出する連続不変学習(CIL)を提案する。
CILは、すべてのタスクにおいて、強いベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2023-10-09T02:18:45Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Exact Subspace Diffusion for Decentralized Multitask Learning [17.592204922442832]
マルチタスク学習のための分散戦略は、よりニュアンスな方法でエージェント間の関係を誘導し、コンセンサスを強制せずにコラボレーションを促進する。
本研究では,ネットワーク上の部分空間制約付きマルチタスク学習のための正確な拡散アルゴリズムの一般化を開発し,その平均二乗偏差の正確な式を導出する。
予測された性能表現の精度を数値的に検証するとともに,近似予測に基づく代替案に対する提案手法の性能向上を検証した。
論文 参考訳(メタデータ) (2023-04-14T19:42:19Z) - Normality-Guided Distributional Reinforcement Learning for Continuous
Control [16.324313304691426]
平均戻り値の予測モデル、すなわち値関数の学習は多くの強化学習アルゴリズムにおいて重要な役割を果たす。
本研究では,複数の連続制御タスクにおける値分布について検討し,学習した値分布が正規に非常に近いことを示す。
本稿では,標準値関数に存在しない値分布の構造的特性によって測定された正当性に基づくポリシー更新戦略を提案する。
論文 参考訳(メタデータ) (2022-08-28T02:52:10Z) - Robust Calibration with Multi-domain Temperature Scaling [86.07299013396059]
我々は,複数の領域からのデータを活用することで,分散シフトを処理するシステムキャリブレーションモデルを開発した。
提案手法は,分布シフト時のキャリブレーションを改善するために,領域内のロバスト性を利用する。
論文 参考訳(メタデータ) (2022-06-06T17:32:12Z) - Conjugated Discrete Distributions for Distributional Reinforcement
Learning [0.0]
最も成功した方法の1つは、非決定論的プロセスがある場合、最適なポリシーを得られないことを示します。
我々は、分散強化学習が、この状況を完全に改善するのに役立つと論じている。
論文 参考訳(メタデータ) (2021-12-14T14:14:49Z) - Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。
分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。
具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文 参考訳(メタデータ) (2021-07-07T15:50:18Z) - Learning Calibrated Uncertainties for Domain Shift: A Distributionally
Robust Learning Approach [150.8920602230832]
ドメインシフトの下で校正された不確実性を学習するためのフレームワークを提案する。
特に、密度比推定は、ターゲット(テスト)サンプルの近さをソース(トレーニング)分布に反映する。
提案手法は下流タスクに有利な校正不確実性を生成する。
論文 参考訳(メタデータ) (2020-10-08T02:10:54Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。