論文の概要: Distributional Reinforcement Learning with Dual Expectile-Quantile
Regression
- arxiv url: http://arxiv.org/abs/2305.16877v1
- Date: Fri, 26 May 2023 12:30:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 15:02:36.490541
- Title: Distributional Reinforcement Learning with Dual Expectile-Quantile
Regression
- Title(参考訳): Dual expectile-Quantile Regressionを用いた分散強化学習
- Authors: Sami Jullien, Romain Deffayet, Jean-Michel Renders, Paul Groth,
Maarten de Rijke
- Abstract要約: 本稿では, 先行研究の欠点を解決し, 期待値と量子値の相補的性質を活用できる2つの期待値量子化手法を提案する。
提案手法は, MuJoCo の連続制御ベンチマークにおいて,Quantile-based と expectile-based のベースラインよりも優れている。
- 参考スコア(独自算出の注目度): 47.77568911280076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Successful applications of distributional reinforcement learning with
quantile regression prompt a natural question: can we use other statistics to
represent the distribution of returns? In particular, expectile regression is
known to be more efficient than quantile regression for approximating
distributions, especially on extreme values, and by providing a straightforward
estimator of the mean it is a natural candidate for reinforcement learning.
Prior work has answered this question positively in the case of expectiles,
with the major caveat that expensive computations must be performed to ensure
convergence. In this work, we propose a dual expectile-quantile approach which
solves the shortcomings of previous work while leveraging the complementary
properties of expectiles and quantiles. Our method outperforms both
quantile-based and expectile-based baselines on the MuJoCo continuous control
benchmark.
- Abstract(参考訳): 分位量回帰を用いた分布強化学習の成功は、自然な疑問を提起する。
特に、予測回帰は、特に極端値の近似における量子回帰よりも効率的であることが知られており、平均の直接推定器を提供することにより、強化学習の自然な候補となる。
先行研究は、期待値の場合、この疑問に肯定的な回答をしており、収束を保証するために高価な計算を行う必要があることに注意が必要である。
本研究では,先行研究の欠点を解消し,期待値と分位数の相補的性質を生かしながら,二元的期待分位法を提案する。
本手法は,ムジョコ連続制御ベンチマークにおいて,量的ベースラインと期待ベースベースラインの両方を上回っている。
関連論文リスト
- Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - Value-Distributional Model-Based Reinforcement Learning [63.32053223422317]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Mixture of Experts with Uncertainty Voting for Imbalanced Deep
Regression Problems [22.041067758144077]
本研究では,不均衡な回帰問題に対するエキスパートの混合手法を提案する。
従来の回帰損失を負の対数類似度に置き換え、サンプルワイドのアレタリックな不確実性も予測する。
このような損失が不均衡をうまく扱えることを示した。
論文 参考訳(メタデータ) (2023-05-24T14:12:21Z) - Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - Learning Quantile Functions without Quantile Crossing for
Distribution-free Time Series Forecasting [12.269597033369557]
本稿では,分散フリーな分布推定フレームワークであるIncrmental (Spline) Quantile Function I(S)QFを提案する。
また、シーケンス・ツー・シーケンス・セッティングに基づく提案手法の一般化誤差解析も提供する。
論文 参考訳(メタデータ) (2021-11-12T06:54:48Z) - Uncertainty quantification for distributed regression [2.28438857884398]
平均推定器の不確かさを定量化する完全データ駆動手法を提案する。
すなわち、所定の決定論的予測セットに基づいて、平均推定器によって得られる予測に対して、同時的要素単位の信頼バンドを構築する。
また,本解析の副産物として,分割・分散型カーネルリッジ回帰に対するsup-norm整合性結果を得る。
論文 参考訳(メタデータ) (2021-05-24T17:33:19Z) - Universal Off-Policy Evaluation [64.02853483874334]
ユニバーサルオフ政治推定器(UnO)への第一歩を踏み出す
我々は, 平均, 分散, 分位数/中間数, 分位数範囲, cvar, および累積分布全体の推定と同時結合に uno を用いる。
論文 参考訳(メタデータ) (2021-04-26T18:54:31Z) - Flexible Model Aggregation for Quantile Regression [92.63075261170302]
量子回帰は、予測の不確実性を定量化する必要性によって動機付けられた統計学習の基本的な問題である。
条件付き量子モデルの任意の数を集約する手法について検討する。
この論文で検討するモデルはすべて、現代のディープラーニングツールキットに適合します。
論文 参考訳(メタデータ) (2021-02-26T23:21:16Z) - Distribution-Free Robust Linear Regression [5.532477732693]
共変体の分布を仮定せずにランダムな設計線形回帰を研究する。
最適部分指数尾を持つオーダー$d/n$の過大なリスクを達成する非線形推定器を構築する。
我々は、Gy"orfi, Kohler, Krzyzak, Walk が原因で、truncated least squares 推定器の古典的境界の最適版を証明した。
論文 参考訳(メタデータ) (2021-02-25T15:10:41Z) - Regularization Strategies for Quantile Regression [8.232258589877942]
連続的な量子の分布に対するピンボール損失を最小化することは、特定の量子の予測のみを行う場合でも良い正則化器であることを示す。
格子モデルにより予測された分布を位置スケールの族に正規化できることを示す。
論文 参考訳(メタデータ) (2021-02-09T21:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。