論文の概要: Stabilizing Extreme Q-learning by Maclaurin Expansion
- arxiv url: http://arxiv.org/abs/2406.04896v2
- Date: Mon, 2 Sep 2024 13:55:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 18:00:58.192927
- Title: Stabilizing Extreme Q-learning by Maclaurin Expansion
- Title(参考訳): マクロリン拡張による極端Q-ラーニングの安定化
- Authors: Motoki Omura, Takayuki Osa, Yusuke Mukuta, Tatsuya Harada,
- Abstract要約: XQL(Extreme Q-learning)は、ベルマン誤差がガムベル分布に従うという仮定に基づいて損失関数を用いる。
オフラインとオンラインの強化学習環境では、強力なパフォーマンスを示している。
安定度を高めるため,Maclaurin Expanded Extreme Q-learningを提案する。
- 参考スコア(独自算出の注目度): 51.041889588036895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In offline reinforcement learning, in-sample learning methods have been widely used to prevent performance degradation caused by evaluating out-of-distribution actions from the dataset. Extreme Q-learning (XQL) employs a loss function based on the assumption that Bellman error follows a Gumbel distribution, enabling it to model the soft optimal value function in an in-sample manner. It has demonstrated strong performance in both offline and online reinforcement learning settings. However, issues remain, such as the instability caused by the exponential term in the loss function and the risk of the error distribution deviating from the Gumbel distribution. Therefore, we propose Maclaurin Expanded Extreme Q-learning to enhance stability. In this method, applying Maclaurin expansion to the loss function in XQL enhances stability against large errors. This approach involves adjusting the modeled value function between the value function under the behavior policy and the soft optimal value function, thus achieving a trade-off between stability and optimality depending on the order of expansion. It also enables adjustment of the error distribution assumption from a normal distribution to a Gumbel distribution. Our method significantly stabilizes learning in online RL tasks from DM Control, where XQL was previously unstable. Additionally, it improves performance in several offline RL tasks from D4RL.
- Abstract(参考訳): オフライン強化学習では、データセットからのアウト・オブ・ディストリビューション動作の評価による性能劣化を防止するために、イン・サンプル学習法が広く用いられている。
Extreme Q-learning (XQL)は、ベルマン誤差がガムベル分布に従うという仮定に基づいて損失関数を用いており、ソフトな最適値関数をサンプル内でモデル化することができる。
オフラインとオンラインの強化学習環境では、強力なパフォーマンスを示している。
しかし、損失関数の指数項による不安定性や、ガムベル分布から逸脱する誤差分布の危険性などの問題が残っている。
そこで我々は,安定性を高めるために,マクロリン拡張エクストリームQ学習を提案する。
この方法では、XQLの損失関数にマクロリン拡張を適用することにより、大きなエラーに対する安定性が向上する。
このアプローチでは, 動作ポリシの下での値関数とソフトな最適値関数の間にモデル化された値関数を調整し, 拡張の順序に応じて安定性と最適性のトレードオフを実現する。
また、正規分布からガンベル分布への誤差分布仮定の調整も可能である。
提案手法は,従来XQLが不安定であったDM制御によるオンラインRLタスクの学習を著しく安定化させる。
さらに、D4RLからいくつかのオフラインRLタスクのパフォーマンスを改善する。
関連論文リスト
- Value-Distributional Model-Based Reinforcement Learning [63.32053223422317]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - LLQL: Logistic Likelihood Q-Learning for Reinforcement Learning [1.5734309088976395]
本研究ではベルマン方程式の反復探索によるベルマン近似誤差の分布について検討した。
本稿では,ベルマン誤差の正規分布を仮定する平均二乗誤差(MSELoss)の代替として,ロジスティック最大度関数(LLoss)の利用を提案する。
論文 参考訳(メタデータ) (2023-07-05T15:00:29Z) - Efficient Diffusion Policies for Offline Reinforcement Learning [85.73757789282212]
Diffsuion-QLは、拡散モデルでポリシーを表現することによってオフラインRLの性能を大幅に向上させる。
これら2つの課題を克服するために,効率的な拡散政策(EDP)を提案する。
EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の腐敗したアクションからアクションを構築する。
論文 参考訳(メタデータ) (2023-05-31T17:55:21Z) - IDQL: Implicit Q-Learning as an Actor-Critic Method with Diffusion
Policies [72.4573167739712]
Implicit Q-learning(IQL)は、修正されたBellmanバックアップを通じてデータセットアクションのみを使用して、Q-関数をトレーニングする。
この訓練されたQ-関数で表される値が実際にどのポリシーで達成されるのかは不明である。
我々はImplicit Q-learning (IDQL)を導入し、一般のIQL批判とポリシー抽出手法を組み合わせた。
論文 参考訳(メタデータ) (2023-04-20T18:04:09Z) - Beyond Ridge Regression for Distribution-Free Data [8.523307608620094]
正規化最大可能性 (pNML) は、データ上に分布の仮定が作成されない分布自由設定に対する min-max 後悔解として提案されている。
仮説クラスに事前のような関数を適用することで、その有効サイズが減少する。
尾根回帰経験的リスク最小化器(Ridge ERM)によるLpNML予測と関連するpNML
我々のLpNMLは、PMLB集合のリッジERM誤差を最大20%低減し、
論文 参考訳(メタデータ) (2022-06-17T13:16:46Z) - Error-based Knockoffs Inference for Controlled Feature Selection [49.99321384855201]
本手法では, ノックオフ特徴量, エラーベース特徴重要度統計量, ステップダウン手順を一体化して, エラーベースのノックオフ推定手法を提案する。
提案手法では回帰モデルを指定する必要はなく,理論的保証で特徴選択を処理できる。
論文 参考訳(メタデータ) (2022-03-09T01:55:59Z) - Reinforcement learning for linear-convex models with jumps via stability
analysis of feedback controls [7.969435896173812]
有限線型時間連続時間地平線学習問題をエピソディックな設定で研究する。
この問題では、未知のジャンプディフプロセスは非平滑凸コストに制御される。
論文 参考訳(メタデータ) (2021-04-19T13:50:52Z) - On the Convergence of Reinforcement Learning in Nonlinear Continuous
State Space Problems [7.853311776883983]
解の分散は近似の順に指数関数的に増大することを示す。
これにより、RL内の"ローカル"フィードバックソリューション以外のものは検索できない。
論文 参考訳(メタデータ) (2020-11-21T17:41:03Z) - Single-partition adaptive Q-learning [0.0]
SPAQL(Single-Partition Adaptive Q-learning)は、モデルなしのエピソード強化学習のためのアルゴリズムである。
多数のタイムステップを持つエピソードのテストでは、適応型Qラーニング(AQL)とは異なり、SPAQLにはスケーリングに問題はないことが示されている。
SPAQLはAQLよりも高いサンプリング効率を持つため、効率的なモデルフリーなRLメソッドの分野に関連性がある、と我々は主張する。
論文 参考訳(メタデータ) (2020-07-14T00:03:25Z) - Approximation Schemes for ReLU Regression [80.33702497406632]
我々はReLU回帰の根本的な問題を考察する。
目的は、未知の分布から引き出された2乗損失に対して、最も適したReLUを出力することである。
論文 参考訳(メタデータ) (2020-05-26T16:26:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。