論文の概要: Symmetric Q-learning: Reducing Skewness of Bellman Error in Online
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.07704v1
- Date: Tue, 12 Mar 2024 14:49:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 21:14:51.815574
- Title: Symmetric Q-learning: Reducing Skewness of Bellman Error in Online
Reinforcement Learning
- Title(参考訳): 対称Q-ラーニング:オンライン強化学習におけるベルマン誤差の軽減
- Authors: Motoki Omura, Takayuki Osa, Yusuke Mukuta, Tatsuya Harada
- Abstract要約: 深層強化学習では、状態や行動の質を評価するために、価値関数を推定することが不可欠である。
最近の研究では、値関数を訓練する際の誤差分布はベルマン作用素の特性のためにしばしば歪むことが示唆されている。
そこで我々は,ゼロ平均分布から発生する合成ノイズを目標値に加え,ガウス誤差分布を生成するSymmetric Q-learning法を提案する。
- 参考スコア(独自算出の注目度): 55.75959755058356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In deep reinforcement learning, estimating the value function to evaluate the
quality of states and actions is essential. The value function is often trained
using the least squares method, which implicitly assumes a Gaussian error
distribution. However, a recent study suggested that the error distribution for
training the value function is often skewed because of the properties of the
Bellman operator, and violates the implicit assumption of normal error
distribution in the least squares method. To address this, we proposed a method
called Symmetric Q-learning, in which the synthetic noise generated from a
zero-mean distribution is added to the target values to generate a Gaussian
error distribution. We evaluated the proposed method on continuous control
benchmark tasks in MuJoCo. It improved the sample efficiency of a
state-of-the-art reinforcement learning method by reducing the skewness of the
error distribution.
- Abstract(参考訳): 深層強化学習では,状態と行動の質を評価するための価値関数の推定が不可欠である。
値関数はしばしば最小二乗法を用いて訓練され、暗黙的にガウス誤差分布を仮定する。
しかし、近年の研究では、ベルマン作用素の性質のため、値関数を訓練するための誤差分布がしばしば歪められ、最小二乗法における正規誤差分布の暗黙の仮定に反することを示した。
そこで本研究では,ゼロ平均分布から発生する合成ノイズを目標値に加え,ガウス誤差分布を生成するSymmetric Q-learning法を提案する。
提案手法をMuJoCoにおける連続制御ベンチマークタスクで評価した。
これにより, 誤差分布の歪を低減し, 最先端強化学習法のサンプル効率を向上した。
関連論文リスト
- Generalized Gaussian Temporal Difference Error for Uncertainty-aware Reinforcement Learning [0.19418036471925312]
深部強化学習における一般化されたガウス誤差モデリングのための新しい枠組みを提案する。
我々のフレームワークは、高次モーメント、特にカルトーシスを付加することにより、エラー分散モデリングの柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-08-05T08:12:25Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - General regularization in covariate shift adaptation [1.5469452301122175]
データ分布の違いを伴わない標準教師付き学習と同等の精度を達成するために必要なサンプルの量は、最先端の分析によって証明されたものよりも少ないことを示す。
論文 参考訳(メタデータ) (2023-07-21T11:19:00Z) - Learn Quasi-stationary Distributions of Finite State Markov Chain [2.780408966503282]
準定常分布の表現を計算するための強化学習(RL)手法を提案する。
候補分布と真の目標分布によって誘導される2つのマルコフ経路分布のKL偏差を最小化する。
対応する政策勾配定理を導出し,最適な解法と値関数を学習するためのアクター・クリティカルなアルゴリズムを設計する。
論文 参考訳(メタデータ) (2021-11-19T02:56:34Z) - Distribution Mismatch Correction for Improved Robustness in Deep Neural
Networks [86.42889611784855]
正規化法は ノイズや入力の腐敗に関して 脆弱性を増大させる
本稿では,各層の活性化分布に適応する非教師なし非パラメトリック分布補正法を提案する。
実験により,提案手法は画像劣化の激しい影響を効果的に低減することを示した。
論文 参考訳(メタデータ) (2021-10-05T11:36:25Z) - A Distribution-Dependent Analysis of Meta-Learning [13.24264919706183]
メタラーニング理論の鍵となる問題は、タスク分布が伝達リスクにどのように影響するかを理解することである。
本稿では,任意のアルゴリズムの転送リスクに対して,分布依存性の低い境界を与える。
バイアス付き正規化回帰法(英語版)と呼ばれる新しい重み付きバージョンは、これらの下界を固定定数係数に一致させることができることを示す。
論文 参考訳(メタデータ) (2020-10-31T19:36:15Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。