論文の概要: Quantile Geometry Regularization for Distributional Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.08182v1
- Date: Tue, 05 May 2026 09:38:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.435869
- Title: Quantile Geometry Regularization for Distributional Reinforcement Learning
- Title(参考訳): 分散強化学習のための量子幾何学規則化
- Authors: Zhaofan Zhang, Minghao Yang, Rufeng Chen, Sihong Xie, Hui Xiong,
- Abstract要約: 我々はロバスト量子ベースインプリシト量子ネットワーク(RQIQN)を提案する。
我々はまず、IQN損失のスナップショットを、サンプリングされた電流分数に対する局所的な量子量推定問題の集合として再解釈する。
次に、各局所スロットを、分布的に堅牢な量子的推定式で頑健化し、ベルマン目標に対する閉形式、分数依存的な補正を与える。
- 参考スコア(独自算出の注目度): 20.41658533815372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantile-based distributional reinforcement learning methods learn return distributions through sampled quantile regression, but their bootstrapped target quantiles may induce distorted or degenerate distribution estimates. We propose Robust Quantile-based Implicit Quantile Networks (RQIQN), a lightweight Wasserstein distributionally robust enhancement boosted from a quantile estimation perspective. We first reinterpret a snapshot of IQN loss as a collection of local empirical quantile estimation problems over sampled current fractions. We then robustify each local slot with a Wasserstein distributionally robust quantile estimation formulation, yielding a closed-form, fraction-dependent correction to the Bellman target. This correction directly addresses distributional degeneration: its median antisymmetry preserves the risk-neutral quantile average, while its monotonicity enlarges upper-lower quantile gaps and counteracts collapsed distributional spread. RQIQN thus regularizes quantile geometry without changing the underlying value objective or requiring additional sample set reconstruction. Finally, we empirically show that the proposed RQIQN outperforms other existing quantile-based distributional reinforcement learning algorithms in risk-sensitive navigation and Atari games.
- Abstract(参考訳): 量子に基づく分散強化学習法は、サンプリングされた量子化回帰によって戻り分布を学習するが、それらのブートストラップされたターゲット量子化は、歪んだあるいは縮退した分布推定を誘導することができる。
本稿では,RQIQN(Robust Quantile-based Implicit Quantile Networks)を提案する。
我々はまず、IQN損失のスナップショットを、サンプリングされた電流分数に対する局所的な量子量推定問題の集合として再解釈する。
次に、各局所スロットを、分布的に堅牢な量子的推定式で頑健化し、ベルマン目標に対する閉形式、分数依存的な補正を与える。
中央の反対称性はリスクニュートラルな量子平均を保ち、その単調性はより低い量子のギャップを拡大し、反作用は分布の拡散を崩壊させる。
したがって、RQIQNは、基礎となる値の目的を変更したり、追加のサンプルセットの再構成を必要とすることなく、量子幾何学を規則化する。
最後に、提案したRQIQNは、リスク感応的なナビゲーションやアタリゲームにおいて、既存の量子ベースの分散強化学習アルゴリズムよりも優れていることを実証的に示す。
関連論文リスト
- Semiparametric conformal prediction [79.6147286161434]
ベクトル値の非整合性スコアの結合相関構造を考慮した共形予測セットを構築する。
スコアの累積分布関数(CDF)を柔軟に推定する。
提案手法は,現実の回帰問題に対して,所望のカバレッジと競争効率をもたらす。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - Relaxed Quantile Regression: Prediction Intervals for Asymmetric Noise [51.87307904567702]
量子レグレッション(Quantile regression)は、出力の分布における量子の実験的推定を通じてそのような間隔を得るための主要なアプローチである。
本稿では、この任意の制約を除去する量子回帰に基づく区間構成の直接的な代替として、Relaxed Quantile Regression (RQR)を提案する。
これにより、柔軟性が向上し、望ましい品質が向上することが実証された。
論文 参考訳(メタデータ) (2024-06-05T13:36:38Z) - Distributional Reinforcement Learning with Dual Expectile-Quantile Regression [51.87411935256015]
分布RLに対する量子レグレッションアプローチは、任意の戻り分布を柔軟かつ効果的に学習する方法を提供する。
我々は,分布推定が消失することを示し,推定分布が急速に平均に崩壊することを実証的に観察した。
我々は,$L$の学習効率に感化され,効率のよい学習方法として,返却分布の期待値と量子値を共同で学習することを提案する。
論文 参考訳(メタデータ) (2023-05-26T12:30:05Z) - QuantProb: Generalizing Probabilities along with Predictions for a Pre-trained Classifier [1.8488661947561271]
ディープ・ネットワークの信頼性の欠如の理由は、ニューラルネットワークが現在トレーニングされている方法では、確率は小さな歪みをまたいで一般化しない、という理由にある、と我々は主張する。
損失関数から量子化表現の構成を分離し、元のネットワークを乱さずに量子化に基づく確率を計算する革新的な手法を提案する。
論文 参考訳(メタデータ) (2023-04-25T12:39:45Z) - Random Forest Weighted Local Fréchet Regression with Random Objects [18.128663071848923]
本稿では,新しいランダム森林重み付き局所Fr'echet回帰パラダイムを提案する。
最初の方法は、これらの重みを局所平均として、条件付きFr'echet平均を解くことである。
第二の手法は局所線形Fr'echet回帰を行い、どちらも既存のFr'echet回帰法を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-10T09:10:59Z) - Deep Non-Crossing Quantiles through the Partial Derivative [0.6299766708197883]
量子回帰(Quantile Regression)は、単一の条件量子を近似する方法を提供する。
QRロス関数の最小化は、非交差量子化を保証しない。
任意の数の量子を予測するための汎用的なディープラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-30T15:35:21Z) - Learning Quantile Functions without Quantile Crossing for
Distribution-free Time Series Forecasting [12.269597033369557]
本稿では,分散フリーな分布推定フレームワークであるIncrmental (Spline) Quantile Function I(S)QFを提案する。
また、シーケンス・ツー・シーケンス・セッティングに基づく提案手法の一般化誤差解析も提供する。
論文 参考訳(メタデータ) (2021-11-12T06:54:48Z) - A Cram\'er Distance perspective on Non-crossing Quantile Regression in
Distributional Reinforcement Learning [2.28438857884398]
QR-DQNのような量子ベースのメソッドは、任意の分布を階段分布のパラメトリックサブセットに投影する。
本研究では,不確実性に基づく探索戦略におけるQR-DQNの性能向上のために,量子化の単調性制約が示されていることを示す。
そこで我々は,新しいアルゴリズムを用いてクラム距離を計算し,優れたトレーニング性能を実現する,新しい非交差ニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-10-01T17:00:25Z) - Regularization Strategies for Quantile Regression [8.232258589877942]
連続的な量子の分布に対するピンボール損失を最小化することは、特定の量子の予測のみを行う場合でも良い正則化器であることを示す。
格子モデルにより予測された分布を位置スケールの族に正規化できることを示す。
論文 参考訳(メタデータ) (2021-02-09T21:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。