論文の概要: Adaptive Ensemble Q-learning: Minimizing Estimation Bias via Error
Feedback
- arxiv url: http://arxiv.org/abs/2306.11918v1
- Date: Tue, 20 Jun 2023 22:06:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 15:38:23.038933
- Title: Adaptive Ensemble Q-learning: Minimizing Estimation Bias via Error
Feedback
- Title(参考訳): Adaptive Ensemble Q-learning: エラーフィードバックによる推定バイアスの最小化
- Authors: Hang Wang, Sen Lin, Junshan Zhang
- Abstract要約: アンサンブル法はQ-ラーニングにおける過大評価問題を緩和するための有望な方法である。
推定バイアスはアンサンブルサイズに大きく依存していることが知られている。
本研究では, (a) アンサンブルサイズを柔軟に制御するためのフィードバックとなる近似誤差特性と, (b) 推定バイアスを最小化するためのアンサンブルサイズ適応の2つの重要なステップを考案する。
- 参考スコア(独自算出の注目度): 31.115084475673793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ensemble method is a promising way to mitigate the overestimation issue
in Q-learning, where multiple function approximators are used to estimate the
action values. It is known that the estimation bias hinges heavily on the
ensemble size (i.e., the number of Q-function approximators used in the
target), and that determining the `right' ensemble size is highly nontrivial,
because of the time-varying nature of the function approximation errors during
the learning process. To tackle this challenge, we first derive an upper bound
and a lower bound on the estimation bias, based on which the ensemble size is
adapted to drive the bias to be nearly zero, thereby coping with the impact of
the time-varying approximation errors accordingly. Motivated by the theoretic
findings, we advocate that the ensemble method can be combined with Model
Identification Adaptive Control (MIAC) for effective ensemble size adaptation.
Specifically, we devise Adaptive Ensemble Q-learning (AdaEQ), a generalized
ensemble method with two key steps: (a) approximation error characterization
which serves as the feedback for flexibly controlling the ensemble size, and
(b) ensemble size adaptation tailored towards minimizing the estimation bias.
Extensive experiments are carried out to show that AdaEQ can improve the
learning performance than the existing methods for the MuJoCo benchmark.
- Abstract(参考訳): アンサンブル法は,複数の関数近似器を用いて動作値を推定するQラーニングにおける過大評価問題を緩和する,有望な手法である。
推定バイアスは、アンサンブルサイズ(すなわち、ターゲットで使用されるQ関数近似器の数)に大きく依存し、学習過程における関数近似誤差の時間的特性のため、'右'アンサンブルサイズを決定することは極めて非自明であることが知られている。
この課題に取り組むために、まず、アンサンブルサイズがほぼゼロになるように適応した推定バイアスの上界及び下界を導出し、それに従って時間変動近似誤差の影響に対処する。
本研究の目的は, モデル同定適応制御(MIAC, Model Identification Adaptive Control)と組み合わせて, 効果的アンサンブルサイズを適応させることである。
具体的には、2つの重要なステップを持つ一般化アンサンブル法である適応アンサンブルq-learning(adaeq)を考案する。
(a)アンサンブルサイズを柔軟に制御するためのフィードバックとして機能する近似誤差のキャラクタリゼーション
(b)推定バイアスを最小化するためのアンサンブルサイズ適応。
AdaEQ が MuJoCo ベンチマークの既存手法よりも学習性能を向上できることを示す大規模な実験を行った。
関連論文リスト
- Off-policy estimation with adaptively collected data: the power of online learning [20.023469636707635]
適応的に収集したデータを用いて, 処理効果の線形関数を推定する。
本稿では,オンライン学習を通じて治療効果の一連の推定を生成できる一般還元方式を提案する。
論文 参考訳(メタデータ) (2024-11-19T10:18:27Z) - C-Learner: Constrained Learning for Causal Inference and Semiparametric Statistics [5.395560682099634]
そこで本研究では,安定なプラグイン推定を望ましい特性で実現する新しいデバイアス推定器を提案する。
我々の制約学習フレームワークは、プラグイン量に対する一階誤差がゼロであるという制約の下で、最高のプラグイン推定器を解く。
我々の推定器は、処理と制御の重複が限定された挑戦的な環境での一段階推定と目標を上回り、それ以外は比較可能である。
論文 参考訳(メタデータ) (2024-05-15T16:38:28Z) - Mind the Gap: Measuring Generalization Performance Across Multiple
Objectives [29.889018459046316]
本稿では,MHPO法の一般化性能を計測できる新しい評価プロトコルを提案する。
また,2つの最適化実験を比較する能力についても検討した。
論文 参考訳(メタデータ) (2022-12-08T10:53:56Z) - Asymptotically Unbiased Instance-wise Regularized Partial AUC
Optimization: Theory and Algorithm [101.44676036551537]
One-way partial AUC (OPAUC) と Two-way partial AUC (TPAUC) はバイナリ分類器の平均性能を測定する。
既存の手法のほとんどはPAUCをほぼ最適化するしかなく、制御不能なバイアスにつながる。
本稿では,分散ロバスト最適化AUCによるPAUC問題の簡易化について述べる。
論文 参考訳(メタデータ) (2022-10-08T08:26:22Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Causal Inference Under Unmeasured Confounding With Negative Controls: A
Minimax Learning Approach [84.29777236590674]
すべての共同設立者が観察されず、代わりに負の制御が利用可能である場合の因果パラメータの推定について検討する。
最近の研究は、2つのいわゆるブリッジ関数による同定と効率的な推定を可能にする方法を示している。
論文 参考訳(メタデータ) (2021-03-25T17:59:19Z) - Calibrated Adaptive Probabilistic ODE Solvers [31.442275669185626]
不確実性の推定を校正するいくつかの確率的動機づけのある方法を紹介し,議論し,評価する。
本手法は,従来の4/5 runge-kutta法に対してベンチマークを行い,その効率性を示す。
論文 参考訳(メタデータ) (2020-12-15T10:48:55Z) - Amortized Conditional Normalized Maximum Likelihood: Reliable Out of
Distribution Uncertainty Estimation [99.92568326314667]
本研究では,不確実性推定のための拡張性のある汎用的アプローチとして,償却条件正規化最大値(ACNML)法を提案する。
提案アルゴリズムは条件付き正規化最大度(CNML)符号化方式に基づいており、最小記述長の原理に従って最小値の最適特性を持つ。
我々は、ACNMLが、分布外入力のキャリブレーションの観点から、不確実性推定のための多くの手法と好意的に比較することを示した。
論文 参考訳(メタデータ) (2020-11-05T08:04:34Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z) - Maxmin Q-learning: Controlling the Estimation Bias of Q-learning [31.742397178618624]
過大評価バイアスは、最大推定アクション値を用いて最大アクション値を近似するため、Q-ラーニングに影響を与える。
バイアスを柔軟に制御するためのパラメータを提供するemphMaxmin Q-learningと呼ばれるQ-ラーニングの一般化を提案する。
提案アルゴリズムは,おもちゃの環境における推定バイアスをよりよく制御し,いくつかのベンチマーク問題において優れた性能が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-02-16T02:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。