論文の概要: Stabilizing Extreme Q-learning by Maclaurin Expansion
- arxiv url: http://arxiv.org/abs/2406.04896v2
- Date: Mon, 2 Sep 2024 13:55:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 18:00:58.192927
- Title: Stabilizing Extreme Q-learning by Maclaurin Expansion
- Title(参考訳): マクロリン拡張による極端Q-ラーニングの安定化
- Authors: Motoki Omura, Takayuki Osa, Yusuke Mukuta, Tatsuya Harada,
- Abstract要約: XQL(Extreme Q-learning)は、ベルマン誤差がガムベル分布に従うという仮定に基づいて損失関数を用いる。
オフラインとオンラインの強化学習環境では、強力なパフォーマンスを示している。
安定度を高めるため,Maclaurin Expanded Extreme Q-learningを提案する。
- 参考スコア(独自算出の注目度): 51.041889588036895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In offline reinforcement learning, in-sample learning methods have been widely used to prevent performance degradation caused by evaluating out-of-distribution actions from the dataset. Extreme Q-learning (XQL) employs a loss function based on the assumption that Bellman error follows a Gumbel distribution, enabling it to model the soft optimal value function in an in-sample manner. It has demonstrated strong performance in both offline and online reinforcement learning settings. However, issues remain, such as the instability caused by the exponential term in the loss function and the risk of the error distribution deviating from the Gumbel distribution. Therefore, we propose Maclaurin Expanded Extreme Q-learning to enhance stability. In this method, applying Maclaurin expansion to the loss function in XQL enhances stability against large errors. This approach involves adjusting the modeled value function between the value function under the behavior policy and the soft optimal value function, thus achieving a trade-off between stability and optimality depending on the order of expansion. It also enables adjustment of the error distribution assumption from a normal distribution to a Gumbel distribution. Our method significantly stabilizes learning in online RL tasks from DM Control, where XQL was previously unstable. Additionally, it improves performance in several offline RL tasks from D4RL.
- Abstract(参考訳): オフライン強化学習では、データセットからのアウト・オブ・ディストリビューション動作の評価による性能劣化を防止するために、イン・サンプル学習法が広く用いられている。
Extreme Q-learning (XQL)は、ベルマン誤差がガムベル分布に従うという仮定に基づいて損失関数を用いており、ソフトな最適値関数をサンプル内でモデル化することができる。
オフラインとオンラインの強化学習環境では、強力なパフォーマンスを示している。
しかし、損失関数の指数項による不安定性や、ガムベル分布から逸脱する誤差分布の危険性などの問題が残っている。
そこで我々は,安定性を高めるために,マクロリン拡張エクストリームQ学習を提案する。
この方法では、XQLの損失関数にマクロリン拡張を適用することにより、大きなエラーに対する安定性が向上する。
このアプローチでは, 動作ポリシの下での値関数とソフトな最適値関数の間にモデル化された値関数を調整し, 拡張の順序に応じて安定性と最適性のトレードオフを実現する。
また、正規分布からガンベル分布への誤差分布仮定の調整も可能である。
提案手法は,従来XQLが不安定であったDM制御によるオンラインRLタスクの学習を著しく安定化させる。
さらに、D4RLからいくつかのオフラインRLタスクのパフォーマンスを改善する。
関連論文リスト
- Symmetric Q-learning: Reducing Skewness of Bellman Error in Online
Reinforcement Learning [55.75959755058356]
深層強化学習では、状態や行動の質を評価するために、価値関数を推定することが不可欠である。
最近の研究では、値関数を訓練する際の誤差分布はベルマン作用素の特性のためにしばしば歪むことが示唆されている。
そこで我々は,ゼロ平均分布から発生する合成ノイズを目標値に加え,ガウス誤差分布を生成するSymmetric Q-learning法を提案する。
論文 参考訳(メタデータ) (2024-03-12T14:49:19Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - LLQL: Logistic Likelihood Q-Learning for Reinforcement Learning [1.5734309088976395]
本研究ではベルマン方程式の反復探索によるベルマン近似誤差の分布について検討した。
本稿では,ベルマン誤差の正規分布を仮定する平均二乗誤差(MSELoss)の代替として,ロジスティック最大度関数(LLoss)の利用を提案する。
論文 参考訳(メタデータ) (2023-07-05T15:00:29Z) - Learning Over Contracting and Lipschitz Closed-Loops for
Partially-Observed Nonlinear Systems (Extended Version) [1.2430809884830318]
本稿では非線形な部分観測力学系に対する学習に基づく制御のためのポリシーパラメータ化を提案する。
結果のYoula-RENパラメータ化は自動的に安定性(収縮)とユーザチューニング可能な堅牢性(Lipschitz)を満足することを示した。
We found that the Youla-REN are also like to existing learning-based and optimal control method, also ensure stability and exhibiting improve robustness to adversarial disturbances。
論文 参考訳(メタデータ) (2023-04-12T23:55:56Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - Enhancing Distributional Stability among Sub-populations [32.66329730287957]
分散シフト下での機械学習アルゴリズムの安定性向上は、OOD(Out-of-Distribution)一般化問題の中心にある。
本稿では,モデル安定性を向上する新しい安定リスク最小化法を提案する。
実験結果は直感と一致し,アルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2022-06-07T03:29:25Z) - Near-optimal Offline Reinforcement Learning with Linear Representation:
Leveraging Variance Information with Pessimism [65.46524775457928]
オフライン強化学習は、オフライン/歴史的データを活用して、シーケンシャルな意思決定戦略を最適化しようとしている。
線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
論文 参考訳(メタデータ) (2022-03-11T09:00:12Z) - Error-based Knockoffs Inference for Controlled Feature Selection [49.99321384855201]
本手法では, ノックオフ特徴量, エラーベース特徴重要度統計量, ステップダウン手順を一体化して, エラーベースのノックオフ推定手法を提案する。
提案手法では回帰モデルを指定する必要はなく,理論的保証で特徴選択を処理できる。
論文 参考訳(メタデータ) (2022-03-09T01:55:59Z) - Reinforcement learning for linear-convex models with jumps via stability
analysis of feedback controls [7.969435896173812]
有限線型時間連続時間地平線学習問題をエピソディックな設定で研究する。
この問題では、未知のジャンプディフプロセスは非平滑凸コストに制御される。
論文 参考訳(メタデータ) (2021-04-19T13:50:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。