論文の概要: Stabilizing Extreme Q-learning by Maclaurin Expansion
- arxiv url: http://arxiv.org/abs/2406.04896v1
- Date: Fri, 7 Jun 2024 12:43:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 14:01:29.426766
- Title: Stabilizing Extreme Q-learning by Maclaurin Expansion
- Title(参考訳): マクロリン拡張による極端Q-ラーニングの安定化
- Authors: Motoki Omura, Takayuki Osa, Yusuke Mukuta, Tatsuya Harada,
- Abstract要約: エクストリームQ学習(XQL)では、Gumbel回帰を仮定したGumbel分布を用いて誤差分布を行う。
安定度を高めるため,Maclaurin Expanded Extreme Q-learningを提案する。
- 参考スコア(独自算出の注目度): 51.041889588036895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Extreme Q-learning (XQL), Gumbel Regression is performed with an assumed Gumbel distribution for the error distribution. This allows learning of the value function without sampling out-of-distribution actions and has shown excellent performance mainly in Offline RL. However, issues remained, including the exponential term in the loss function causing instability and the potential for an error distribution diverging from the Gumbel distribution. Therefore, we propose Maclaurin Expanded Extreme Q-learning to enhance stability. In this method, applying Maclaurin expansion to the loss function in XQL enhances stability against large errors. It also allows adjusting the error distribution assumption from normal to Gumbel based on the expansion order. Our method significantly stabilizes learning in Online RL tasks from DM Control, where XQL was previously unstable. Additionally, it improves performance in several Offline RL tasks from D4RL, where XQL already showed excellent results.
- Abstract(参考訳): エクストリームQ学習(XQL)では、Gumbel回帰を仮定したGumbel分布を用いて誤差分布を行う。
これにより、分配動作をサンプリングすることなく値関数の学習が可能となり、主にオフラインRLの性能が向上した。
しかし、損失関数の指数項が不安定を引き起こし、ガムベル分布から発散する誤差分布の可能性を含む問題が残った。
そこで我々は,安定性を高めるために,マクロリン拡張エクストリームQ学習を提案する。
この方法では、XQLの損失関数にマクロリン拡張を適用することにより、大きなエラーに対する安定性が向上する。
また、拡張順序に基づいて正規からガンベルへの誤差分布の仮定を調整することもできる。
提案手法は,従来XQLが不安定であったDM制御からオンラインRLタスクの学習を著しく安定化させる。
さらに、XQLがすでに優れた結果を示しているD4RLから、いくつかのオフラインRLタスクのパフォーマンスも向上している。
関連論文リスト
- Symmetric Q-learning: Reducing Skewness of Bellman Error in Online
Reinforcement Learning [55.75959755058356]
深層強化学習では、状態や行動の質を評価するために、価値関数を推定することが不可欠である。
最近の研究では、値関数を訓練する際の誤差分布はベルマン作用素の特性のためにしばしば歪むことが示唆されている。
そこで我々は,ゼロ平均分布から発生する合成ノイズを目標値に加え,ガウス誤差分布を生成するSymmetric Q-learning法を提案する。
論文 参考訳(メタデータ) (2024-03-12T14:49:19Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - LLQL: Logistic Likelihood Q-Learning for Reinforcement Learning [1.5734309088976395]
本研究ではベルマン方程式の反復探索によるベルマン近似誤差の分布について検討した。
本稿では,ベルマン誤差の正規分布を仮定する平均二乗誤差(MSELoss)の代替として,ロジスティック最大度関数(LLoss)の利用を提案する。
論文 参考訳(メタデータ) (2023-07-05T15:00:29Z) - Learning Over Contracting and Lipschitz Closed-Loops for
Partially-Observed Nonlinear Systems (Extended Version) [1.2430809884830318]
本稿では非線形な部分観測力学系に対する学習に基づく制御のためのポリシーパラメータ化を提案する。
結果のYoula-RENパラメータ化は自動的に安定性(収縮)とユーザチューニング可能な堅牢性(Lipschitz)を満足することを示した。
We found that the Youla-REN are also like to existing learning-based and optimal control method, also ensure stability and exhibiting improve robustness to adversarial disturbances。
論文 参考訳(メタデータ) (2023-04-12T23:55:56Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - Enhancing Distributional Stability among Sub-populations [32.66329730287957]
分散シフト下での機械学習アルゴリズムの安定性向上は、OOD(Out-of-Distribution)一般化問題の中心にある。
本稿では,モデル安定性を向上する新しい安定リスク最小化法を提案する。
実験結果は直感と一致し,アルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2022-06-07T03:29:25Z) - Near-optimal Offline Reinforcement Learning with Linear Representation:
Leveraging Variance Information with Pessimism [65.46524775457928]
オフライン強化学習は、オフライン/歴史的データを活用して、シーケンシャルな意思決定戦略を最適化しようとしている。
線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
論文 参考訳(メタデータ) (2022-03-11T09:00:12Z) - Error-based Knockoffs Inference for Controlled Feature Selection [49.99321384855201]
本手法では, ノックオフ特徴量, エラーベース特徴重要度統計量, ステップダウン手順を一体化して, エラーベースのノックオフ推定手法を提案する。
提案手法では回帰モデルを指定する必要はなく,理論的保証で特徴選択を処理できる。
論文 参考訳(メタデータ) (2022-03-09T01:55:59Z) - Reinforcement learning for linear-convex models with jumps via stability
analysis of feedback controls [7.969435896173812]
有限線型時間連続時間地平線学習問題をエピソディックな設定で研究する。
この問題では、未知のジャンプディフプロセスは非平滑凸コストに制御される。
論文 参考訳(メタデータ) (2021-04-19T13:50:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。