論文の概要: LLQL: Logistic Likelihood Q-Learning for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2307.02345v1
- Date: Wed, 5 Jul 2023 15:00:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 13:16:12.656557
- Title: LLQL: Logistic Likelihood Q-Learning for Reinforcement Learning
- Title(参考訳): LLQL: 強化学習のためのロジスティックなQラーニング
- Authors: Outongyi Lv, Bingxin Zhou, Yu Guang Wang
- Abstract要約: 本研究では,オンライン設定とオフライン設定の両方においてベルマン近似誤差の分布を解析する。
オンライン環境では、ベルマン誤差はロジスティック分布に従うが、オフライン環境では、ベルマン誤差は制約付きロジスティック分布に従う。
- 参考スコア(独自算出の注目度): 2.786956882821218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Currently, research on Reinforcement learning (RL) can be broadly classified
into two categories: online RL and offline RL. Both in online and offline RL,
the primary focus of research on the Bellman error lies in the optimization
techniques and performance improvement, rather than exploring the inherent
structural properties of the Bellman error, such as distribution
characteristics. In this study, we analyze the distribution of the Bellman
approximation error in both online and offline settings. We find that in the
online environment, the Bellman error follows a Logistic distribution, while in
the offline environment, the Bellman error follows a constrained Logistic
distribution, where the constrained distribution is dependent on the prior
policy in the offline data set. Based on this finding, we have improved the
MSELoss which is based on the assumption that the Bellman errors follow a
normal distribution, and we utilized the Logistic maximum likelihood function
to construct $\rm LLoss$ as an alternative loss function. In addition, we
observed that the rewards in the offline data set should follow a specific
distribution, which would facilitate the achievement of offline objectives. In
our numerical experiments, we performed controlled variable corrections on the
loss functions of two variants of Soft-Actor-Critic in both online and offline
environments. The results confirmed our hypothesis regarding the online and
offline settings, we also found that the variance of LLoss is smaller than
MSELoss. Our research provides valuable insights for further investigations
based on the distribution of Bellman errors.
- Abstract(参考訳): 現在、強化学習(RL)の研究は、オンラインRLとオフラインRLの2つのカテゴリに大別できる。
オンラインおよびオフラインのRLにおいて、ベルマン誤差の研究の主な焦点は、分布特性のようなベルマン誤差の本質的な構造的特性を調べるのではなく、最適化技術と性能改善にある。
本研究では,オンライン設定とオフライン設定の両方においてベルマン近似誤差の分布を解析する。
オンライン環境ではベルマン誤差はロジスティック分布に従うが、オフライン環境ではベルマン誤差は制約付きロジスティック分布に従う。
この結果に基づき、ベルマン誤差が正規分布に従うという仮定に基づいてMSELosを改良し、ロジスティック最大可能性関数を用いて代替損失関数として$\rm LLoss$を構築した。
さらに,オフラインデータセットの報酬は,オフライン目的の達成を促進するような,特定のディストリビューションに従うべきであることも確認した。
数値実験では,オンライン環境とオフライン環境の両方において,ソフトアクタクリティックの損失関数の制御変数補正を行った。
その結果、オンラインとオフラインの設定に関する仮説が確認されたが、llossのばらつきはmelossよりも小さいことが判明した。
本研究はベルマン誤差の分布に基づくさらなる調査に有用な知見を提供する。
関連論文リスト
- Bellman Diffusion: Generative Modeling as Learning a Linear Operator in the Distribution Space [72.52365911990935]
本稿では,MDPの線形性を維持する新しいDGMフレームワークであるBellman Diffusionを紹介する。
この結果から,ベルマン拡散は分布RLタスクにおける従来のヒストグラムベースベースラインよりも1.5倍高速に収束し,精度の高い画像生成装置であることがわかった。
論文 参考訳(メタデータ) (2024-10-02T17:53:23Z) - Stabilizing Extreme Q-learning by Maclaurin Expansion [51.041889588036895]
XQL(Extreme Q-learning)は、ベルマン誤差がガムベル分布に従うという仮定に基づいて損失関数を用いる。
オフラインとオンラインの強化学習環境では、強力なパフォーマンスを示している。
安定度を高めるため,Maclaurin Expanded Extreme Q-learningを提案する。
論文 参考訳(メタデータ) (2024-06-07T12:43:17Z) - Symmetric Q-learning: Reducing Skewness of Bellman Error in Online
Reinforcement Learning [55.75959755058356]
深層強化学習では、状態や行動の質を評価するために、価値関数を推定することが不可欠である。
最近の研究では、値関数を訓練する際の誤差分布はベルマン作用素の特性のためにしばしば歪むことが示唆されている。
そこで我々は,ゼロ平均分布から発生する合成ノイズを目標値に加え,ガウス誤差分布を生成するSymmetric Q-learning法を提案する。
論文 参考訳(メタデータ) (2024-03-12T14:49:19Z) - On solutions of the distributional Bellman equation [0.0]
一般分布ベルマン方程式とそれらの解の存在と特異性、および戻り分布のテール特性について考察する。
分布型ベルマン方程式の任意の解は、多変量アフィン分布方程式に対する解の辺法則のベクトルとして得られることを示す。
論文 参考訳(メタデータ) (2022-01-31T20:36:59Z) - Optimal policy evaluation using kernel-based temporal difference methods [78.83926562536791]
カーネルヒルベルト空間を用いて、無限水平割引マルコフ報酬過程の値関数を推定する。
我々は、関連するカーネル演算子の固有値に明示的に依存した誤差の非漸近上界を導出する。
MRP のサブクラスに対する minimax の下位境界を証明する。
論文 参考訳(メタデータ) (2021-09-24T14:48:20Z) - Exploring the Training Robustness of Distributional Reinforcement
Learning against Noisy State Observations [7.776010676090131]
エージェントが観察する状態の観察は、測定誤差や敵のノイズを含んでおり、エージェントが最適な行動を取るように誤解したり、訓練中に崩壊することもある。
本稿では,本研究の成果である分散強化学習(RL)のトレーニングロバスト性について検討する。
論文 参考訳(メタデータ) (2021-09-17T22:37:39Z) - Bayesian Bellman Operators [55.959376449737405]
ベイズ強化学習(RL)の新しい視点について紹介する。
我々のフレームワークは、ブートストラップが導入されたとき、モデルなしアプローチは実際には値関数ではなくベルマン作用素よりも後部を推測する、という洞察に動機づけられている。
論文 参考訳(メタデータ) (2021-06-09T12:20:46Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。