論文の概要: Distributional Reinforcement Learning with Dual Expectile-Quantile
Regression
- arxiv url: http://arxiv.org/abs/2305.16877v1
- Date: Fri, 26 May 2023 12:30:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 15:02:36.490541
- Title: Distributional Reinforcement Learning with Dual Expectile-Quantile
Regression
- Title(参考訳): Dual expectile-Quantile Regressionを用いた分散強化学習
- Authors: Sami Jullien, Romain Deffayet, Jean-Michel Renders, Paul Groth,
Maarten de Rijke
- Abstract要約: 本稿では, 先行研究の欠点を解決し, 期待値と量子値の相補的性質を活用できる2つの期待値量子化手法を提案する。
提案手法は, MuJoCo の連続制御ベンチマークにおいて,Quantile-based と expectile-based のベースラインよりも優れている。
- 参考スコア(独自算出の注目度): 47.77568911280076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Successful applications of distributional reinforcement learning with
quantile regression prompt a natural question: can we use other statistics to
represent the distribution of returns? In particular, expectile regression is
known to be more efficient than quantile regression for approximating
distributions, especially on extreme values, and by providing a straightforward
estimator of the mean it is a natural candidate for reinforcement learning.
Prior work has answered this question positively in the case of expectiles,
with the major caveat that expensive computations must be performed to ensure
convergence. In this work, we propose a dual expectile-quantile approach which
solves the shortcomings of previous work while leveraging the complementary
properties of expectiles and quantiles. Our method outperforms both
quantile-based and expectile-based baselines on the MuJoCo continuous control
benchmark.
- Abstract(参考訳): 分位量回帰を用いた分布強化学習の成功は、自然な疑問を提起する。
特に、予測回帰は、特に極端値の近似における量子回帰よりも効率的であることが知られており、平均の直接推定器を提供することにより、強化学習の自然な候補となる。
先行研究は、期待値の場合、この疑問に肯定的な回答をしており、収束を保証するために高価な計算を行う必要があることに注意が必要である。
本研究では,先行研究の欠点を解消し,期待値と分位数の相補的性質を生かしながら,二元的期待分位法を提案する。
本手法は,ムジョコ連続制御ベンチマークにおいて,量的ベースラインと期待ベースベースラインの両方を上回っている。
関連論文リスト
- Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Uncertainty Voting Ensemble for Imbalanced Deep Regression [20.176217123752465]
本稿では,不均衡なデータから学習するUVOTEを紹介する。
従来の回帰損失を負の対数類似度に置き換え、サンプルワイドのアレタリックな不確実性も予測する。
UVOTEは先行技術より一貫して優れており、同時に精度のよい不確実性評価が得られている。
論文 参考訳(メタデータ) (2023-05-24T14:12:21Z) - Learnable Distribution Calibration for Few-Shot Class-Incremental
Learning [122.2241120474278]
FSCIL(Few-shot class-incremental Learning)は、古いクラス分布を記憶し、少数のトレーニングサンプルから新しいクラス分布を推定するという課題に直面している。
本稿では,これら2つの課題を統一フレームワークを用いて体系的に解決することを目的とした,学習可能な分布校正手法を提案する。
論文 参考訳(メタデータ) (2022-10-01T09:40:26Z) - How Does Return Distribution in Distributional Reinforcement Learning Help Optimization? [10.149055921090572]
ニューラルネットワークZ-Iteration(Neural FZI)フレームワークにおける分布RLの最適化の利点について検討する。
その結果, 分布RLは良好な滑らかさ特性を有し, 安定な勾配を享受できることが示唆された。
本研究は,分布RLアルゴリズムの帰属分布が最適化にどう役立つかを明らかにする。
論文 参考訳(メタデータ) (2022-09-29T02:18:31Z) - Normality-Guided Distributional Reinforcement Learning for Continuous
Control [16.324313304691426]
平均戻り値の予測モデル、すなわち値関数の学習は多くの強化学習アルゴリズムにおいて重要な役割を果たす。
本研究では,複数の連続制御タスクにおける値分布について検討し,学習した値分布が正規に非常に近いことを示す。
本稿では,標準値関数に存在しない値分布の構造的特性によって測定された正当性に基づくポリシー更新戦略を提案する。
論文 参考訳(メタデータ) (2022-08-28T02:52:10Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z) - Bayesian Distributional Policy Gradients [2.28438857884398]
分布強化学習は、報酬対移動の確率分布全体を維持する。
返品だ
Bayesian Distributional Policy Gradients (BDPG) は、共同コントラスト学習における逆行訓練を用いて、リターンから変動後部を推定する。
論文 参考訳(メタデータ) (2021-03-20T23:42:50Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。