論文の概要: Factors of Influence of the Overestimation Bias of Q-Learning
- arxiv url: http://arxiv.org/abs/2210.05262v1
- Date: Tue, 11 Oct 2022 08:46:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 13:33:32.496761
- Title: Factors of Influence of the Overestimation Bias of Q-Learning
- Title(参考訳): Q-Learningにおける過大評価バイアスの影響要因
- Authors: Julius Wagenbach and Matthia Sabatelli
- Abstract要約: 学習率$alpha$,割引係数$gamma$,報奨信号$r$が,Q-Learningアルゴリズムの過大評価バイアスに与える影響について検討した。
以上の結果から,これら3つのパラメータが過大評価に大きく影響していることが示唆された。
- 参考スコア(独自算出の注目度): 0.7614628596146599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study whether the learning rate $\alpha$, the discount factor $\gamma$ and
the reward signal $r$ have an influence on the overestimation bias of the
Q-Learning algorithm. Our preliminary results in environments which are
stochastic and that require the use of neural networks as function
approximators, show that all three parameters influence overestimation
significantly. By carefully tuning $\alpha$ and $\gamma$, and by using an
exponential moving average of $r$ in Q-Learning's temporal difference target,
we show that the algorithm can learn value estimates that are more accurate
than the ones of several other popular model-free methods that have addressed
its overestimation bias in the past.
- Abstract(参考訳): 本研究では,学習率$\alpha$,割引率$\gamma$,報酬信号$r$が,q学習アルゴリズムの過推定バイアスに与える影響について検討した。
ニューラルネットワークを関数近似器として用いる必要がある環境における予備的な結果は、3つのパラメータが過大評価に大きく影響していることを示している。
Q-Learning の時間差目標における指数移動平均 $r$ を用いて、$\alpha$ と $\gamma$ を慎重にチューニングすることにより、過去にその過大評価バイアスに対処したいくつかの一般的なモデルフリーメソッドよりも精度の高い値推定を学習できることが示される。
関連論文リスト
- Towards Diverse Evaluation of Class Incremental Learning: A Representation Learning Perspective [67.45111837188685]
クラスインクリメンタル学習(CIL)アルゴリズムは、インクリメンタルに到着したデータから新しいオブジェクトクラスを継続的に学習することを目的としている。
表現学習における様々な評価プロトコルを用いて,CILアルゴリズムによって訓練されたニューラルネットワークモデルを実験的に解析する。
論文 参考訳(メタデータ) (2022-06-16T11:44:11Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Addressing Maximization Bias in Reinforcement Learning with Two-Sample Testing [0.0]
過大評価バイアスは、価値に基づく強化学習アルゴリズムに対する既知の脅威である。
平均的な2サンプルテストに基づいて,過大評価と過小評価を柔軟に補間する$T$-Estimator (TE)を提案する。
また、TEと同じバイアスと分散境界に従うK$-Estimator (KE) という一般化も導入する。
論文 参考訳(メタデータ) (2022-01-20T09:22:43Z) - On the Estimation Bias in Double Q-Learning [20.856485777692594]
二重Q学習は完全にバイアスがなく、過小評価バイアスに悩まされている。
そのような過小評価バイアスは、近似されたベルマン作用素の下で複数の最適でない不動点をもたらす可能性があることを示す。
ダブルQ-ラーニングにおける過小評価バイアスに対する部分修正として,単純だが効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-29T13:41:24Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Influence Functions in Deep Learning Are Fragile [52.31375893260445]
影響関数は、テスト時間予測におけるサンプルの効果を近似する。
影響評価は浅いネットワークでは かなり正確です
ヘッセン正則化は、高品質な影響推定を得るために重要である。
論文 参考訳(メタデータ) (2020-06-25T18:25:59Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z) - Maxmin Q-learning: Controlling the Estimation Bias of Q-learning [31.742397178618624]
過大評価バイアスは、最大推定アクション値を用いて最大アクション値を近似するため、Q-ラーニングに影響を与える。
バイアスを柔軟に制御するためのパラメータを提供するemphMaxmin Q-learningと呼ばれるQ-ラーニングの一般化を提案する。
提案アルゴリズムは,おもちゃの環境における推定バイアスをよりよく制御し,いくつかのベンチマーク問題において優れた性能が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-02-16T02:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。