論文の概要: LLQL: Logistic Likelihood Q-Learning for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2307.02345v2
- Date: Tue, 26 Sep 2023 14:34:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 17:36:37.162757
- Title: LLQL: Logistic Likelihood Q-Learning for Reinforcement Learning
- Title(参考訳): LLQL: 強化学習のためのロジスティックなQラーニング
- Authors: Outongyi Lv and Bingxin Zhou
- Abstract要約: 本研究では,オンライン設定とオフライン設定の両方においてベルマン近似誤差の分布について検討した。
我々はオンラインRLとオフラインRLの両方において、ベルマン誤差がロジスティック分布に一致することを観察した。
- 参考スコア(独自算出の注目度): 1.5734309088976395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern reinforcement learning (RL) can be categorized into online and offline
variants. As a pivotal aspect of both online and offline RL, current research
on the Bellman equation revolves primarily around optimization techniques and
performance enhancement rather than exploring the inherent structural
properties of the Bellman error, such as its distribution characteristics. This
study investigates the distribution of the Bellman approximation error in both
online and offline settings through iterative exploration of the Bellman
equation. We observed that both in online RL and offline RL, the Bellman error
conforms to a Logistic distribution. Building upon this discovery, this study
employed the Logistics maximum likelihood function (LLoss) as an alternative to
the commonly used MSE Loss, assuming that Bellman errors adhere to a normal
distribution. We validated our hypotheses through extensive numerical
experiments across diverse online and offline environments. In particular, we
applied corrections to the loss function across various baseline algorithms and
consistently observed that the loss function with Logistic corrections
outperformed the MSE counterpart significantly. Additionally, we conducted
Kolmogorov-Smirnov tests to confirm the reliability of the Logistic
distribution. This study's theoretical and empirical insights provide valuable
groundwork for future investigations and enhancements centered on the
distribution of Bellman errors.
- Abstract(参考訳): 現代の強化学習(RL)はオンラインとオフラインに分類できる。
オンラインRLとオフラインRLの両方の重要な側面として、ベルマン方程式の現在の研究は、その分布特性のようなベルマン誤差の本質的な構造的特性を探求するよりも、主に最適化技術と性能向上に焦点を当てている。
本研究では,ベルマン方程式の反復探索により,オンラインおよびオフラインの両方の設定におけるベルマン近似誤差の分布について検討した。
我々はオンラインRLとオフラインRLの両方において、ベルマン誤差がロジスティック分布に一致することを示した。
この発見に基づいて、ベルマンの誤差が正規分布に従属すると仮定して、この研究はよく使われるMSE損失の代替としてロジスティックス最大極大関数 (LLoss) を用いた。
オンラインとオフラインの多様な環境にまたがる広範な数値実験を通じて仮説を検証した。
特に,様々なベースラインアルゴリズム間での損失関数の補正を行い,ロジスティック補正による損失関数がMSEよりも有意に優れていたことを一貫して観察した。
さらに,ロジスティック分布の信頼性を確認するためにkolmogorov-smirnov試験を行った。
この研究の理論的および経験的洞察は、ベルマン誤差の分布を中心とした将来の調査と強化のための貴重な基礎となる。
関連論文リスト
- Symmetric Q-learning: Reducing Skewness of Bellman Error in Online
Reinforcement Learning [55.75959755058356]
深層強化学習では、状態や行動の質を評価するために、価値関数を推定することが不可欠である。
最近の研究では、値関数を訓練する際の誤差分布はベルマン作用素の特性のためにしばしば歪むことが示唆されている。
そこで我々は,ゼロ平均分布から発生する合成ノイズを目標値に加え,ガウス誤差分布を生成するSymmetric Q-learning法を提案する。
論文 参考訳(メタデータ) (2024-03-12T14:49:19Z) - Value-Distributional Model-Based Reinforcement Learning [63.32053223422317]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Policy Evaluation in Distributional LQR [70.63903506291383]
ランダムリターンの分布を閉形式で表現する。
この分布は有限個の確率変数で近似できることを示す。
近似回帰分布を用いて,リスク・アバースLQRに対するゼロ階ポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-23T20:27:40Z) - How Does Value Distribution in Distributional Reinforcement Learning
Help Optimization? [4.695760312524447]
分布強化学習(RL)におけるベルマン力学から確率分布の集合を学習する問題を考える。
優れた性能を得ることに成功したにもかかわらず、分布RLの値分布がどのように機能するかはまだよく分かっていない。
論文 参考訳(メタデータ) (2022-09-29T02:18:31Z) - On solutions of the distributional Bellman equation [0.0]
一般分布ベルマン方程式とそれらの解の存在と特異性、および戻り分布のテール特性について考察する。
分布型ベルマン方程式の任意の解は、多変量アフィン分布方程式に対する解の辺法則のベクトルとして得られることを示す。
論文 参考訳(メタデータ) (2022-01-31T20:36:59Z) - Optimal policy evaluation using kernel-based temporal difference methods [78.83926562536791]
カーネルヒルベルト空間を用いて、無限水平割引マルコフ報酬過程の値関数を推定する。
我々は、関連するカーネル演算子の固有値に明示的に依存した誤差の非漸近上界を導出する。
MRP のサブクラスに対する minimax の下位境界を証明する。
論文 参考訳(メタデータ) (2021-09-24T14:48:20Z) - Bayesian Bellman Operators [55.959376449737405]
ベイズ強化学習(RL)の新しい視点について紹介する。
我々のフレームワークは、ブートストラップが導入されたとき、モデルなしアプローチは実際には値関数ではなくベルマン作用素よりも後部を推測する、という洞察に動機づけられている。
論文 参考訳(メタデータ) (2021-06-09T12:20:46Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。