Fugu-MT 論文翻訳(概要): Distributional Reinforcement Learning with Dual Expectile-Quantile Regression

論文の概要: Distributional Reinforcement Learning with Dual Expectile-Quantile Regression

arxiv url: http://arxiv.org/abs/2305.16877v1
Date: Fri, 26 May 2023 12:30:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-29 15:02:36.490541
Title: Distributional Reinforcement Learning with Dual Expectile-Quantile Regression
Title（参考訳）: Dual expectile-Quantile Regressionを用いた分散強化学習
Authors: Sami Jullien, Romain Deffayet, Jean-Michel Renders, Paul Groth, Maarten de Rijke
Abstract要約: 本稿では, 先行研究の欠点を解決し, 期待値と量子値の相補的性質を活用できる2つの期待値量子化手法を提案する。提案手法は, MuJoCo の連続制御ベンチマークにおいて,Quantile-based と expectile-based のベースラインよりも優れている。
参考スコア（独自算出の注目度）: 47.77568911280076
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Successful applications of distributional reinforcement learning with quantile regression prompt a natural question: can we use other statistics to represent the distribution of returns? In particular, expectile regression is known to be more efficient than quantile regression for approximating distributions, especially on extreme values, and by providing a straightforward estimator of the mean it is a natural candidate for reinforcement learning. Prior work has answered this question positively in the case of expectiles, with the major caveat that expensive computations must be performed to ensure convergence. In this work, we propose a dual expectile-quantile approach which solves the shortcomings of previous work while leveraging the complementary properties of expectiles and quantiles. Our method outperforms both quantile-based and expectile-based baselines on the MuJoCo continuous control benchmark.
Abstract（参考訳）: 分位量回帰を用いた分布強化学習の成功は、自然な疑問を提起する。特に、予測回帰は、特に極端値の近似における量子回帰よりも効率的であることが知られており、平均の直接推定器を提供することにより、強化学習の自然な候補となる。先行研究は、期待値の場合、この疑問に肯定的な回答をしており、収束を保証するために高価な計算を行う必要があることに注意が必要である。本研究では,先行研究の欠点を解消し,期待値と分位数の相補的性質を生かしながら,二元的期待分位法を提案する。本手法は,ムジョコ連続制御ベンチマークにおいて,量的ベースラインと期待ベースベースラインの両方を上回っている。

関連論文リスト

Log-Sum-Exponential Estimator for Off-Policy Evaluation and Learning [50.93804891554481]
従来の逆確率スコア推定よりも優れた対数推定演算子(log-sum-exponential (LSE)演算子)に基づく新しい推定器を提案する。我々のLSE推定器は, 重み付き条件下での分散低減とロバスト性を示す。政治以外の学習シナリオでは、LSE推定器と最適ポリシーの間のパフォーマンスギャップである後悔の限界を確立します。
論文参考訳（メタデータ） (2025-06-07T17:37:10Z)
Regression Discontinuity Design with Distribution-Valued Outcomes [0.0]
本稿では,Regression Discontinuity Design (RDD)について紹介する。標準のRDDフレームワークを、結果がスカラーではなく分散であるような設定に拡張する。次に,提案手法を適用して,アメリカ合衆国における州内所得分布に対する州知事統制の効果について検討する。
論文参考訳（メタデータ） (2025-04-04T23:12:35Z)
Statistical-Computational Trade-offs for Recursive Adaptive Partitioning Estimators [23.056208049082134]
我々は,高次元回帰のためのグリーディアルゴリズムが局所最適点において立ち往生していることを示す。低い推定誤差を達成するために、greedyトレーニングには$exp(Omega(d))$が必要であることを示す。この二分法は、平均場状態における勾配降下(SGD)を訓練した2層ニューラルネットワークを反映する。
論文参考訳（メタデータ） (2024-11-07T03:11:53Z)
Relaxed Quantile Regression: Prediction Intervals for Asymmetric Noise [51.87307904567702]
量子レグレッション(Quantile regression)は、出力の分布における量子の実験的推定を通じてそのような間隔を得るための主要なアプローチである。本稿では、この任意の制約を除去する量子回帰に基づく区間構成の直接的な代替として、Relaxed Quantile Regression (RQR)を提案する。これにより、柔軟性が向上し、望ましい品質が向上することが実証された。
論文参考訳（メタデータ） (2024-06-05T13:36:38Z)
Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文参考訳（メタデータ） (2024-05-29T01:32:17Z)
Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文参考訳（メタデータ） (2024-05-16T17:58:44Z)
Uncertainty Voting Ensemble for Imbalanced Deep Regression [20.176217123752465]
本稿では,不均衡なデータから学習するUVOTEを紹介する。従来の回帰損失を負の対数類似度に置き換え、サンプルワイドのアレタリックな不確実性も予測する。 UVOTEは先行技術より一貫して優れており、同時に精度のよい不確実性評価が得られている。
論文参考訳（メタデータ） (2023-05-24T14:12:21Z)
SIMPLE: A Gradient Estimator for $k$-Subset Sampling [42.38652558807518]
この作業では、フォワードパスの離散$k$-subsetサンプリングに戻ります。勾配推定器 SIMPLE は, 最先端推定器と比較して, バイアスやばらつきが低いことを示す。実験結果から,線形回帰を説明・スパースする学習性能が向上した。
論文参考訳（メタデータ） (2022-10-04T22:33:16Z)
Learnable Distribution Calibration for Few-Shot Class-Incremental Learning [122.2241120474278]
FSCIL(Few-shot class-incremental Learning)は、古いクラス分布を記憶し、少数のトレーニングサンプルから新しいクラス分布を推定するという課題に直面している。本稿では,これら2つの課題を統一フレームワークを用いて体系的に解決することを目的とした,学習可能な分布校正手法を提案する。
論文参考訳（メタデータ） (2022-10-01T09:40:26Z)
How Does Return Distribution in Distributional Reinforcement Learning Help Optimization? [10.149055921090572]
ニューラルネットワークZ-Iteration(Neural FZI)フレームワークにおける分布RLの最適化の利点について検討する。その結果, 分布RLは良好な滑らかさ特性を有し, 安定な勾配を享受できることが示唆された。本研究は,分布RLアルゴリズムの帰属分布が最適化にどう役立つかを明らかにする。
論文参考訳（メタデータ） (2022-09-29T02:18:31Z)
Normality-Guided Distributional Reinforcement Learning for Continuous Control [16.324313304691426]
平均戻り値の予測モデル、すなわち値関数の学習は多くの強化学習アルゴリズムにおいて重要な役割を果たす。本研究では,複数の連続制御タスクにおける値分布について検討し,学習した値分布が正規に非常に近いことを示す。本稿では,標準値関数に存在しない値分布の構造的特性によって測定された正当性に基づくポリシー更新戦略を提案する。
論文参考訳（メタデータ） (2022-08-28T02:52:10Z)
Distributional Reinforcement Learning for Multi-Dimensional Reward Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文参考訳（メタデータ） (2021-10-26T11:24:23Z)
Bayesian Distributional Policy Gradients [2.28438857884398]
分布強化学習は、報酬対移動の確率分布全体を維持する。返品だ Bayesian Distributional Policy Gradients (BDPG) は、共同コントラスト学習における逆行訓練を用いて、リターンから変動後部を推定する。
論文参考訳（メタデータ） (2021-03-20T23:42:50Z)
Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。 Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文参考訳（メタデータ） (2020-07-24T05:18:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。