Fugu-MT 論文翻訳(概要): Distributional Reinforcement Learning with Dual Expectile-Quantile Regression

論文の概要: Distributional Reinforcement Learning with Dual Expectile-Quantile Regression

arxiv url: http://arxiv.org/abs/2305.16877v3
Date: Wed, 14 Aug 2024 07:09:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-15 18:46:43.268016
Title: Distributional Reinforcement Learning with Dual Expectile-Quantile Regression
Title（参考訳）: Dual expectile-Quantile Regressionを用いた分散強化学習
Authors: Sami Jullien, Romain Deffayet, Jean-Michel Renders, Paul Groth, Maarten de Rijke,
Abstract要約: 分布RLに対する量子レグレッションアプローチは、任意の戻り分布を柔軟かつ効果的に学習する方法を提供する。我々は,分布保証が消えることを示し,推定分布が急速に崩壊して平均推定値が崩壊することを実証的に観察する。提案手法は,$L$の学習効率を生かして,返却分布の予測値と量子化値とを協調的に学習し,返却分布の完全な分布を推定し,効率的な学習を可能にするものである。
参考スコア（独自算出の注目度）: 51.87411935256015
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Distributional reinforcement learning (RL) has proven useful in multiple benchmarks as it enables approximating the full distribution of returns and makes a better use of environment samples. The commonly used quantile regression approach to distributional RL -- based on asymmetric $L_1$ losses -- provides a flexible and effective way of learning arbitrary return distributions. In practice, it is often improved by using a more efficient, hybrid asymmetric $L_1$-$L_2$ Huber loss for quantile regression. However, by doing so, distributional estimation guarantees vanish, and we empirically observe that the estimated distribution rapidly collapses to its mean. Indeed, asymmetric $L_2$ losses, corresponding to expectile regression, cannot be readily used for distributional temporal difference learning. Motivated by the efficiency of $L_2$-based learning, we propose to jointly learn expectiles and quantiles of the return distribution in a way that allows efficient learning while keeping an estimate of the full distribution of returns. We prove that our approach approximately learns the correct return distribution, and we benchmark a practical implementation on a toy example and at scale. On the Atari benchmark, our approach matches the performance of the Huber-based IQN-1 baseline after $200$M training frames but avoids distributional collapse and keeps estimates of the full distribution of returns.
Abstract（参考訳）: 分散強化学習(RL)は,リターンの完全な分布を近似し,環境サンプルをよりよく活用できるため,複数のベンチマークで有用であることが証明されている。非対称な$L_1$損失に基づく分布RLに対する一般的な量子レグレッションアプローチは、任意の戻り分布を柔軟かつ効果的に学習する方法を提供する。実際には、量子レグレッションのためにより効率的でハイブリッドな$L_1$-$L_2$ Huber損失を使用することで、しばしば改善される。しかし, 分布推定は消滅し, 推定分布が急速に崩壊するのを実証的に観察する。実際、期待回帰に対応する非対称$L_2$損失は、分布時間差分学習では容易には利用できない。本研究は,$L_2$ベースの学習を効率よく行うことにより,返却分布の予測値と量子化値とを協調的に学習し,返却分布の完全な分布を推定し,効率的な学習を可能にすることを提案する。提案手法は, 正解分布を概ね学習し, おもちゃの例と規模で実践的な実装をベンチマークする。 Atari ベンチマークでは,2M のトレーニングフレームの後に Huber ベースの IQN-1 ベースラインの性能にマッチするが,分布の崩壊を回避し,リターンの完全な分布を推定する。

関連論文リスト

Value Flows [90.1510269525399]
本稿では, フローベースモデルを用いて, 将来のリターン分布を推定する。学習したフローモデルに基づいて、新しいフロー微分ODEを用いて、異なる状態の戻り不確かさを推定する。ステートベース37ドル、イメージベースのベンチマークタスク25ドルの実験では、バリューフローが平均的な成功率で1.3倍の改善を達成している。
論文参考訳（メタデータ） (2025-10-09T00:57:40Z)
FlowRL: Matching Reward Distributions for LLM Reasoning [69.88820066093798]
大規模言語モデル(LLM)強化学習(RL)において、報酬を最大化する代わりに、フローバランシングによる全報酬分布をマッチングするフローRLを提案する。我々はスカラー報酬を学習可能な分割関数を用いて正規化対象分布に変換し、その後、ポリシーと対象分布との逆KL分散を最小化する。
論文参考訳（メタデータ） (2025-09-18T17:56:36Z)
Log-Sum-Exponential Estimator for Off-Policy Evaluation and Learning [50.93804891554481]
従来の逆確率スコア推定よりも優れた対数推定演算子(log-sum-exponential (LSE)演算子)に基づく新しい推定器を提案する。我々のLSE推定器は, 重み付き条件下での分散低減とロバスト性を示す。政治以外の学習シナリオでは、LSE推定器と最適ポリシーの間のパフォーマンスギャップである後悔の限界を確立します。
論文参考訳（メタデータ） (2025-06-07T17:37:10Z)
Regression Discontinuity Design with Distribution-Valued Outcomes [0.0]
本稿では,Regression Discontinuity Design (RDD)について紹介する。標準のRDDフレームワークを、結果がスカラーではなく分散であるような設定に拡張する。次に,提案手法を適用して,アメリカ合衆国における州内所得分布に対する州知事統制の効果について検討する。
論文参考訳（メタデータ） (2025-04-04T23:12:35Z)
Statistical-Computational Trade-offs for Recursive Adaptive Partitioning Estimators [23.056208049082134]
我々は,高次元回帰のためのグリーディアルゴリズムが局所最適点において立ち往生していることを示す。低い推定誤差を達成するために、greedyトレーニングには$exp(Omega(d))$が必要であることを示す。この二分法は、平均場状態における勾配降下(SGD)を訓練した2層ニューラルネットワークを反映する。
論文参考訳（メタデータ） (2024-11-07T03:11:53Z)
Relaxed Quantile Regression: Prediction Intervals for Asymmetric Noise [51.87307904567702]
量子レグレッション(Quantile regression)は、出力の分布における量子の実験的推定を通じてそのような間隔を得るための主要なアプローチである。本稿では、この任意の制約を除去する量子回帰に基づく区間構成の直接的な代替として、Relaxed Quantile Regression (RQR)を提案する。これにより、柔軟性が向上し、望ましい品質が向上することが実証された。
論文参考訳（メタデータ） (2024-06-05T13:36:38Z)
Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文参考訳（メタデータ） (2024-05-29T01:32:17Z)
Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文参考訳（メタデータ） (2024-05-16T17:58:44Z)
Uncertainty Voting Ensemble for Imbalanced Deep Regression [20.176217123752465]
本稿では,不均衡なデータから学習するUVOTEを紹介する。従来の回帰損失を負の対数類似度に置き換え、サンプルワイドのアレタリックな不確実性も予測する。 UVOTEは先行技術より一貫して優れており、同時に精度のよい不確実性評価が得られている。
論文参考訳（メタデータ） (2023-05-24T14:12:21Z)
SIMPLE: A Gradient Estimator for $k$-Subset Sampling [42.38652558807518]
この作業では、フォワードパスの離散$k$-subsetサンプリングに戻ります。勾配推定器 SIMPLE は, 最先端推定器と比較して, バイアスやばらつきが低いことを示す。実験結果から,線形回帰を説明・スパースする学習性能が向上した。
論文参考訳（メタデータ） (2022-10-04T22:33:16Z)
Learnable Distribution Calibration for Few-Shot Class-Incremental Learning [122.2241120474278]
FSCIL(Few-shot class-incremental Learning)は、古いクラス分布を記憶し、少数のトレーニングサンプルから新しいクラス分布を推定するという課題に直面している。本稿では,これら2つの課題を統一フレームワークを用いて体系的に解決することを目的とした,学習可能な分布校正手法を提案する。
論文参考訳（メタデータ） (2022-10-01T09:40:26Z)
How Does Return Distribution in Distributional Reinforcement Learning Help Optimization? [10.149055921090572]
ニューラルネットワークZ-Iteration(Neural FZI)フレームワークにおける分布RLの最適化の利点について検討する。その結果, 分布RLは良好な滑らかさ特性を有し, 安定な勾配を享受できることが示唆された。本研究は,分布RLアルゴリズムの帰属分布が最適化にどう役立つかを明らかにする。
論文参考訳（メタデータ） (2022-09-29T02:18:31Z)
Normality-Guided Distributional Reinforcement Learning for Continuous Control [16.324313304691426]
平均戻り値の予測モデル、すなわち値関数の学習は多くの強化学習アルゴリズムにおいて重要な役割を果たす。本研究では,複数の連続制御タスクにおける値分布について検討し,学習した値分布が正規に非常に近いことを示す。本稿では,標準値関数に存在しない値分布の構造的特性によって測定された正当性に基づくポリシー更新戦略を提案する。
論文参考訳（メタデータ） (2022-08-28T02:52:10Z)
Distributional Reinforcement Learning for Multi-Dimensional Reward Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文参考訳（メタデータ） (2021-10-26T11:24:23Z)
Bayesian Distributional Policy Gradients [2.28438857884398]
分布強化学習は、報酬対移動の確率分布全体を維持する。返品だ Bayesian Distributional Policy Gradients (BDPG) は、共同コントラスト学習における逆行訓練を用いて、リターンから変動後部を推定する。
論文参考訳（メタデータ） (2021-03-20T23:42:50Z)
Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。 Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文参考訳（メタデータ） (2020-07-24T05:18:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。