論文の概要: Distributional Reinforcement Learning with Dual Expectile-Quantile Regression
- arxiv url: http://arxiv.org/abs/2305.16877v2
- Date: Mon, 18 Mar 2024 14:27:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 01:20:39.245937
- Title: Distributional Reinforcement Learning with Dual Expectile-Quantile Regression
- Title(参考訳): Dual expectile-Quantile Regressionを用いた分散強化学習
- Authors: Sami Jullien, Romain Deffayet, Jean-Michel Renders, Paul Groth, Maarten de Rijke,
- Abstract要約: 分布RLに対する量子レグレッションアプローチは、任意の戻り分布を柔軟かつ効果的に学習する方法を提供する。
我々は,分布保証が消えることを示し,推定分布が急速に崩壊して平均推定値が崩壊することを実証的に観察する。
提案手法は,$L$の学習効率を生かして,返却分布の予測値と量子化値とを協調的に学習し,返却分布の完全な分布を推定し,効率的な学習を可能にするものである。
- 参考スコア(独自算出の注目度): 51.87411935256015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distributional reinforcement learning (RL) has proven useful in multiple benchmarks as it enables approximating the full distribution of returns and makes a better use of environment samples. The commonly used quantile regression approach to distributional RL -- based on asymmetric $L_1$ losses -- provides a flexible and effective way of learning arbitrary return distributions. In practice, it is often improved by using a more efficient, hybrid asymmetric $L_1$-$L_2$ Huber loss for quantile regression. However, by doing so, distributional estimation guarantees vanish, and we empirically observe that the estimated distribution rapidly collapses to its mean. Indeed, asymmetric $L_2$ losses, corresponding to expectile regression, cannot be readily used for distributional temporal difference learning. Motivated by the efficiency of $L_2$-based learning, we propose to jointly learn expectiles and quantiles of the return distribution in a way that allows efficient learning while keeping an estimate of the full distribution of returns. We prove that our approach approximately learns the correct return distribution, and we benchmark a practical implementation on a toy example and at scale. On the Atari benchmark, our approach matches the performance of the Huber-based IQN-1 baseline after $200$M training frames but avoids distributional collapse and keeps estimates of the full distribution of returns.
- Abstract(参考訳): 分散強化学習(RL)は,リターンの完全な分布を近似し,環境サンプルをよりよく活用できるため,複数のベンチマークで有用であることが証明されている。
非対称な$L_1$損失に基づく分布RLに対する一般的な量子レグレッションアプローチは、任意の戻り分布を柔軟かつ効果的に学習する方法を提供する。
実際には、量子レグレッションのためにより効率的でハイブリッドな$L_1$-$L_2$ Huber損失を使用することで、しばしば改善される。
しかし, 分布推定は消滅し, 推定分布が急速に崩壊するのを実証的に観察する。
実際、期待回帰に対応する非対称$L_2$損失は、分布時間差分学習では容易には利用できない。
本研究は,$L_2$ベースの学習を効率よく行うことにより,返却分布の予測値と量子化値とを協調的に学習し,返却分布の完全な分布を推定し,効率的な学習を可能にすることを提案する。
提案手法は, 正解分布を概ね学習し, おもちゃの例と規模で実践的な実装をベンチマークする。
Atari ベンチマークでは,2M のトレーニングフレームの後に Huber ベースの IQN-1 ベースラインの性能にマッチするが,分布の崩壊を回避し,リターンの完全な分布を推定する。
関連論文リスト
- Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Learnable Distribution Calibration for Few-Shot Class-Incremental
Learning [122.2241120474278]
FSCIL(Few-shot class-incremental Learning)は、古いクラス分布を記憶し、少数のトレーニングサンプルから新しいクラス分布を推定するという課題に直面している。
本稿では,これら2つの課題を統一フレームワークを用いて体系的に解決することを目的とした,学習可能な分布校正手法を提案する。
論文 参考訳(メタデータ) (2022-10-01T09:40:26Z) - Normality-Guided Distributional Reinforcement Learning for Continuous
Control [16.324313304691426]
平均戻り値の予測モデル、すなわち値関数の学習は多くの強化学習アルゴリズムにおいて重要な役割を果たす。
本研究では,複数の連続制御タスクにおける値分布について検討し,学習した値分布が正規に非常に近いことを示す。
本稿では,標準値関数に存在しない値分布の構造的特性によって測定された正当性に基づくポリシー更新戦略を提案する。
論文 参考訳(メタデータ) (2022-08-28T02:52:10Z) - A flexible empirical Bayes approach to multiple linear regression and connections with penalized regression [8.663322701649454]
大規模多重回帰に対する新しい経験的ベイズ手法を提案する。
当社のアプローチでは、フレキシブルな"適応縮小"と変分近似の2つの主要なアイデアが組み合わさっている。
提案手法では, 後進平均値がペナル化回帰問題を解く。
論文 参考訳(メタデータ) (2022-08-23T12:42:57Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z) - Bayesian Distributional Policy Gradients [2.28438857884398]
分布強化学習は、報酬対移動の確率分布全体を維持する。
返品だ
Bayesian Distributional Policy Gradients (BDPG) は、共同コントラスト学習における逆行訓練を用いて、リターンから変動後部を推定する。
論文 参考訳(メタデータ) (2021-03-20T23:42:50Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z) - Estimates on Learning Rates for Multi-Penalty Distribution Regression [5.999239529678357]
本研究では,学習理論の枠組みに基づく分散回帰のためのマルチペナルティ正規化アルゴリズムについて検討する。
Hilbert 空間 $mathcalH_K$ と Mercer カーネル $K$ を平均埋め込み技術により再現する。
この研究は、既存の文献では研究されていない非標準設定$f_rhonotinmathcalH_K$における分布回帰の学習率も導出している。
論文 参考訳(メタデータ) (2020-06-16T09:31:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。