論文の概要: LLQL: Logistic Likelihood Q-Learning for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2307.02345v3
- Date: Fri, 3 Nov 2023 15:55:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 17:42:56.154346
- Title: LLQL: Logistic Likelihood Q-Learning for Reinforcement Learning
- Title(参考訳): LLQL: 強化学習のためのロジスティックなQラーニング
- Authors: Outongyi Lv and Bingxin Zhou
- Abstract要約: 本研究では,オンライン設定とオフライン設定の両方においてベルマン近似誤差の分布について検討した。
我々はオンラインRLとオフラインRLの両方において、ベルマン誤差がロジスティック分布に一致することを観察した。
- 参考スコア(独自算出の注目度): 1.5734309088976395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern reinforcement learning (RL) can be categorized into online and offline
variants. As a pivotal aspect of both online and offline RL, current research
on the Bellman equation revolves primarily around optimization techniques and
performance enhancement rather than exploring the inherent structural
properties of the Bellman error, such as its distribution characteristics. This
study investigates the distribution of the Bellman approximation error in both
online and offline settings through iterative exploration of the Bellman
equation. We observed that both in online RL and offline RL, the Bellman error
conforms to a Logistic distribution. Building upon this discovery, this study
employed the Logistics maximum likelihood function (LLoss) as an alternative to
the commonly used MSE Loss, assuming that Bellman errors adhere to a normal
distribution. We validated our hypotheses through extensive numerical
experiments across diverse online and offline environments. In particular, we
applied corrections to the loss function across various baseline algorithms and
consistently observed that the loss function with Logistic corrections
outperformed the MSE counterpart significantly. Additionally, we conducted
Kolmogorov-Smirnov tests to confirm the reliability of the Logistic
distribution. This study's theoretical and empirical insights provide valuable
groundwork for future investigations and enhancements centered on the
distribution of Bellman errors.
- Abstract(参考訳): 現代の強化学習(RL)はオンラインとオフラインに分類できる。
オンラインRLとオフラインRLの両方の重要な側面として、ベルマン方程式の現在の研究は、その分布特性のようなベルマン誤差の本質的な構造的特性を探求するよりも、主に最適化技術と性能向上に焦点を当てている。
本研究では,ベルマン方程式の反復探索により,オンラインおよびオフラインの両方の設定におけるベルマン近似誤差の分布について検討した。
我々はオンラインRLとオフラインRLの両方において、ベルマン誤差がロジスティック分布に一致することを示した。
この発見に基づいて、ベルマンの誤差が正規分布に従属すると仮定して、この研究はよく使われるMSE損失の代替としてロジスティックス最大極大関数 (LLoss) を用いた。
オンラインとオフラインの多様な環境にまたがる広範な数値実験を通じて仮説を検証した。
特に,様々なベースラインアルゴリズム間での損失関数の補正を行い,ロジスティック補正による損失関数がMSEよりも有意に優れていたことを一貫して観察した。
さらに,ロジスティック分布の信頼性を確認するためにkolmogorov-smirnov試験を行った。
この研究の理論的および経験的洞察は、ベルマン誤差の分布を中心とした将来の調査と強化のための貴重な基礎となる。
関連論文リスト
- Bellman Diffusion: Generative Modeling as Learning a Linear Operator in the Distribution Space [72.52365911990935]
本稿では,MDPの線形性を維持する新しいDGMフレームワークであるBellman Diffusionを紹介する。
この結果から,ベルマン拡散は分布RLタスクにおける従来のヒストグラムベースベースラインよりも1.5倍高速に収束し,精度の高い画像生成装置であることがわかった。
論文 参考訳(メタデータ) (2024-10-02T17:53:23Z) - Stabilizing Extreme Q-learning by Maclaurin Expansion [51.041889588036895]
XQL(Extreme Q-learning)は、ベルマン誤差がガムベル分布に従うという仮定に基づいて損失関数を用いる。
オフラインとオンラインの強化学習環境では、強力なパフォーマンスを示している。
安定度を高めるため,Maclaurin Expanded Extreme Q-learningを提案する。
論文 参考訳(メタデータ) (2024-06-07T12:43:17Z) - Symmetric Q-learning: Reducing Skewness of Bellman Error in Online
Reinforcement Learning [55.75959755058356]
深層強化学習では、状態や行動の質を評価するために、価値関数を推定することが不可欠である。
最近の研究では、値関数を訓練する際の誤差分布はベルマン作用素の特性のためにしばしば歪むことが示唆されている。
そこで我々は,ゼロ平均分布から発生する合成ノイズを目標値に加え,ガウス誤差分布を生成するSymmetric Q-learning法を提案する。
論文 参考訳(メタデータ) (2024-03-12T14:49:19Z) - On solutions of the distributional Bellman equation [0.0]
一般分布ベルマン方程式とそれらの解の存在と特異性、および戻り分布のテール特性について考察する。
分布型ベルマン方程式の任意の解は、多変量アフィン分布方程式に対する解の辺法則のベクトルとして得られることを示す。
論文 参考訳(メタデータ) (2022-01-31T20:36:59Z) - Optimal policy evaluation using kernel-based temporal difference methods [78.83926562536791]
カーネルヒルベルト空間を用いて、無限水平割引マルコフ報酬過程の値関数を推定する。
我々は、関連するカーネル演算子の固有値に明示的に依存した誤差の非漸近上界を導出する。
MRP のサブクラスに対する minimax の下位境界を証明する。
論文 参考訳(メタデータ) (2021-09-24T14:48:20Z) - Exploring the Training Robustness of Distributional Reinforcement
Learning against Noisy State Observations [7.776010676090131]
エージェントが観察する状態の観察は、測定誤差や敵のノイズを含んでおり、エージェントが最適な行動を取るように誤解したり、訓練中に崩壊することもある。
本稿では,本研究の成果である分散強化学習(RL)のトレーニングロバスト性について検討する。
論文 参考訳(メタデータ) (2021-09-17T22:37:39Z) - Bayesian Bellman Operators [55.959376449737405]
ベイズ強化学習(RL)の新しい視点について紹介する。
我々のフレームワークは、ブートストラップが導入されたとき、モデルなしアプローチは実際には値関数ではなくベルマン作用素よりも後部を推測する、という洞察に動機づけられている。
論文 参考訳(メタデータ) (2021-06-09T12:20:46Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。