論文の概要: Quantile Q-Learning: Revisiting Offline Extreme Q-Learning with Quantile Regression
- arxiv url: http://arxiv.org/abs/2511.11973v1
- Date: Sat, 15 Nov 2025 01:10:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.424025
- Title: Quantile Q-Learning: Revisiting Offline Extreme Q-Learning with Quantile Regression
- Title(参考訳): 量子Q-Learning: 量子回帰によるオフライン極端Q-Learningの再検討
- Authors: Xinming Gao, Shangzhe Li, Yujin Cai, Wenwu Yu,
- Abstract要約: オフライン強化学習(RL)は、環境のさらなる相互作用なしに、固定データセットからポリシー学習を可能にする。
Extreme $Q$-Learning (XQL)は、Extreme Value Theoremを使用してBellmanエラーをモデル化する、最近のオフラインRLメソッドである。
軽度仮定下での量子回帰による温度係数$$を推定する原理的手法を提案する。
- 参考スコア(独自算出の注目度): 14.037591273612788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) enables policy learning from fixed datasets without further environment interaction, making it particularly valuable in high-risk or costly domains. Extreme $Q$-Learning (XQL) is a recent offline RL method that models Bellman errors using the Extreme Value Theorem, yielding strong empirical performance. However, XQL and its stabilized variant MXQL suffer from notable limitations: both require extensive hyperparameter tuning specific to each dataset and domain, and also exhibit instability during training. To address these issues, we proposed a principled method to estimate the temperature coefficient $β$ via quantile regression under mild assumptions. To further improve training stability, we introduce a value regularization technique with mild generalization, inspired by recent advances in constrained value learning. Experimental results demonstrate that the proposed algorithm achieves competitive or superior performance across a range of benchmark tasks, including D4RL and NeoRL2, while maintaining stable training dynamics and using a consistent set of hyperparameters across all datasets and domains.
- Abstract(参考訳): オフライン強化学習(RL)は、より環境的な相互作用を伴わない固定データセットからのポリシー学習を可能にし、特にリスクの高いドメインやコストの高いドメインで有用である。
Extreme $Q$-Learning (XQL)は、最近のオフラインRLメソッドで、Extreme Value Theoremを使用してベルマンエラーをモデル化し、強力な経験的パフォーマンスをもたらす。
しかしながら、XQLとその安定版であるMXQLには、データセットとドメインに特有の広範なハイパーパラメータチューニングが必要であり、トレーニング中に不安定性を示すという、注目すべき制限がある。
これらの問題に対処するため、軽度仮定の下で量子レグレッションにより温度係数$β$を推定する原理的手法を提案した。
トレーニングの安定性をさらに向上するために,制約付き値学習の最近の進歩に触発された,軽度な一般化を伴う値正規化手法を導入する。
実験の結果,提案アルゴリズムは,D4RLやNeoRL2など,さまざまなベンチマークタスクに対して,安定したトレーニングダイナミックスを維持しつつ,すべてのデータセットやドメインに対して一貫したハイパーパラメータセットを使用することで,競争力や優れたパフォーマンスを実現することが示された。
関連論文リスト
- Physics-informed Value Learner for Offline Goal-Conditioned Reinforcement Learning [20.424372965054832]
EmphPhysics-informed (Pi) regularized loss for value learning, derived from the Eikonal partial Differential Equation (PDE)。
トレーニングを安定させるために主に用いられる一般的な勾配のペナルティとは異なり、我々の定式化は連続時間最適制御に基礎を置いており、コスト対ゴ構造に整合する値関数を奨励している。
提案した正規化器は時間差に基づく値学習と広く互換性があり、既存のオフラインGCRLアルゴリズムに統合できる。
論文 参考訳(メタデータ) (2025-09-08T15:08:42Z) - Provably Efficient Online RLHF with One-Pass Reward Modeling [70.82499103200402]
人間のフィードバックからの強化学習は、大規模言語モデルと人間の好みを合わせることに顕著な成功を収めた。
オンラインRLHFは有望な方向性として現れ、反復的なデータ収集と改善を可能にしている。
本稿では,過去のデータを保存する必要をなくし,反復毎に一定時間更新を行うワンパス報酬モデリング手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T02:36:01Z) - Stabilizing Extreme Q-learning by Maclaurin Expansion [51.041889588036895]
XQL(Extreme Q-learning)は、ベルマン誤差がガムベル分布に従うという仮定に基づいて損失関数を用いる。
オフラインとオンラインの強化学習環境では、強力なパフォーマンスを示している。
安定度を高めるため,Maclaurin Expanded Extreme Q-learningを提案する。
論文 参考訳(メタデータ) (2024-06-07T12:43:17Z) - Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Robust Reinforcement Learning using Offline Data [23.260211453437055]
我々はロバストフィットQ-Iteration (RFQI) と呼ばれる頑健な強化学習アルゴリズムを提案する。
RFQIは、最適なロバストポリシを学ぶために、オフラインデータセットのみを使用する。
我々は、RFQIが標準仮定の下でほぼ最適のロバストポリシーを学習していることを証明する。
論文 参考訳(メタデータ) (2022-08-10T03:47:45Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。