論文の概要: LLQL: Logistic Likelihood Q-Learning for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2307.02345v4
- Date: Wed, 13 Dec 2023 14:43:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 20:38:48.231350
- Title: LLQL: Logistic Likelihood Q-Learning for Reinforcement Learning
- Title(参考訳): LLQL: 強化学習のためのロジスティックなQラーニング
- Authors: Outongyi Lv and Bingxin Zhou
- Abstract要約: 本研究ではベルマン方程式の反復探索によるベルマン近似誤差の分布について検討した。
本稿では,ベルマン誤差の正規分布を仮定する平均二乗誤差(MSELoss)の代替として,ロジスティック最大度関数(LLoss)の利用を提案する。
- 参考スコア(独自算出の注目度): 1.5734309088976395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern reinforcement learning (RL) can be categorized into online and offline
variants. As a pivotal aspect of both online and offline RL, current research
on the Bellman equation revolves primarily around optimization techniques and
performance enhancement rather than exploring the inherent structural
properties of the Bellman error, such as its distribution characteristics. This
study investigates the distribution of the Bellman approximation error through
iterative exploration of the Bellman equation with the observation that the
Bellman error approximately follows the Logistic distribution. Based on this,
we proposed the utilization of the Logistic maximum likelihood function (LLoss)
as an alternative to the commonly used mean squared error (MSELoss) that
assumes a Normal distribution for Bellman errors. We validated the hypotheses
through extensive numerical experiments across diverse online and offline
environments. In particular, we applied the Logistic correction to loss
functions in various RL baseline methods and observed that the results with
LLoss consistently outperformed the MSE counterparts. We also conducted the
Kolmogorov-Smirnov tests to confirm the reliability of the Logistic
distribution. Moreover, our theory connects the Bellman error to the
proportional reward scaling phenomenon by providing a distribution-based
analysis. Furthermore, we applied the bias-variance decomposition for sampling
from the Logistic distribution. The theoretical and empirical insights of this
study lay a valuable foundation for future investigations and enhancements
centered on the distribution of Bellman error.
- Abstract(参考訳): 現代の強化学習(RL)はオンラインとオフラインに分類できる。
オンラインRLとオフラインRLの両方の重要な側面として、ベルマン方程式の現在の研究は、その分布特性のようなベルマン誤差の本質的な構造的特性を探求するよりも、主に最適化技術と性能向上に焦点を当てている。
本研究は,ベルマン方程式の繰り返し探索を通じてベルマン近似誤差の分布を考察し,ベルマン誤差がロジスティック分布にほぼ従うことを観測する。
そこで本研究では,ベルマン誤差の正規分布を仮定した平均二乗誤差 (mseloss) の代替としてロジスティック最大度関数 (lloss) を用いることを提案した。
様々なオンライン・オフライン環境における数値実験を通じて仮説を検証した。
特に,様々なrlベースライン法における損失関数にロジスティック補正を適用し,llossによる結果がmseよりも一貫して優れていた。
また,ロジスティック分布の信頼性を確認するためにKolmogorov-Smirnov試験を行った。
さらに,本理論は分布に基づく解析を行うことで,ベルマン誤差と比例報酬スケーリング現象を結びつけるものである。
さらに,ロジスティック分布からのサンプリングにバイアス分散分解を適用した。
この研究の理論的、実証的な洞察は、ベルマン誤差の分布を中心とした将来の研究と強化の貴重な基礎を築いた。
関連論文リスト
- Bellman Diffusion: Generative Modeling as Learning a Linear Operator in the Distribution Space [72.52365911990935]
本稿では,MDPの線形性を維持する新しいDGMフレームワークであるBellman Diffusionを紹介する。
この結果から,ベルマン拡散は分布RLタスクにおける従来のヒストグラムベースベースラインよりも1.5倍高速に収束し,精度の高い画像生成装置であることがわかった。
論文 参考訳(メタデータ) (2024-10-02T17:53:23Z) - Stabilizing Extreme Q-learning by Maclaurin Expansion [51.041889588036895]
XQL(Extreme Q-learning)は、ベルマン誤差がガムベル分布に従うという仮定に基づいて損失関数を用いる。
オフラインとオンラインの強化学習環境では、強力なパフォーマンスを示している。
安定度を高めるため,Maclaurin Expanded Extreme Q-learningを提案する。
論文 参考訳(メタデータ) (2024-06-07T12:43:17Z) - Symmetric Q-learning: Reducing Skewness of Bellman Error in Online
Reinforcement Learning [55.75959755058356]
深層強化学習では、状態や行動の質を評価するために、価値関数を推定することが不可欠である。
最近の研究では、値関数を訓練する際の誤差分布はベルマン作用素の特性のためにしばしば歪むことが示唆されている。
そこで我々は,ゼロ平均分布から発生する合成ノイズを目標値に加え,ガウス誤差分布を生成するSymmetric Q-learning法を提案する。
論文 参考訳(メタデータ) (2024-03-12T14:49:19Z) - On solutions of the distributional Bellman equation [0.0]
一般分布ベルマン方程式とそれらの解の存在と特異性、および戻り分布のテール特性について考察する。
分布型ベルマン方程式の任意の解は、多変量アフィン分布方程式に対する解の辺法則のベクトルとして得られることを示す。
論文 参考訳(メタデータ) (2022-01-31T20:36:59Z) - Optimal policy evaluation using kernel-based temporal difference methods [78.83926562536791]
カーネルヒルベルト空間を用いて、無限水平割引マルコフ報酬過程の値関数を推定する。
我々は、関連するカーネル演算子の固有値に明示的に依存した誤差の非漸近上界を導出する。
MRP のサブクラスに対する minimax の下位境界を証明する。
論文 参考訳(メタデータ) (2021-09-24T14:48:20Z) - Exploring the Training Robustness of Distributional Reinforcement
Learning against Noisy State Observations [7.776010676090131]
エージェントが観察する状態の観察は、測定誤差や敵のノイズを含んでおり、エージェントが最適な行動を取るように誤解したり、訓練中に崩壊することもある。
本稿では,本研究の成果である分散強化学習(RL)のトレーニングロバスト性について検討する。
論文 参考訳(メタデータ) (2021-09-17T22:37:39Z) - Bayesian Bellman Operators [55.959376449737405]
ベイズ強化学習(RL)の新しい視点について紹介する。
我々のフレームワークは、ブートストラップが導入されたとき、モデルなしアプローチは実際には値関数ではなくベルマン作用素よりも後部を推測する、という洞察に動機づけられている。
論文 参考訳(メタデータ) (2021-06-09T12:20:46Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。