論文の概要: Two-Sample Testing in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2201.08078v1
- Date: Thu, 20 Jan 2022 09:22:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-21 22:50:04.239402
- Title: Two-Sample Testing in Reinforcement Learning
- Title(参考訳): 強化学習における2サンプルテスト
- Authors: Martin Waltz and Ostap Okhrin
- Abstract要約: 最も一般的なサンプルベースのメソッドは$Q$-Learningである。
我々は、$Q$-LearningとそのニューラルネットワークアナログであるDeep $Q$-Networkの変更を紹介する。
提案した推定器とアルゴリズムは、様々なタスクと環境に対して徹底的に検証され、検証される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Value-based reinforcement-learning algorithms have shown strong performances
in games, robotics, and other real-world applications. The most popular
sample-based method is $Q$-Learning. A $Q$-value is the expected return for a
state-action pair when following a particular policy, and the algorithm
subsequently performs updates by adjusting the current $Q$-value towards the
observed reward and the maximum of the $Q$-values of the next state. The
procedure introduces maximization bias, and solutions like Double $Q$-Learning
have been considered. We frame the bias problem statistically and consider it
an instance of estimating the maximum expected value (MEV) of a set of random
variables. We propose the $T$-Estimator (TE) based on two-sample testing for
the mean. The TE flexibly interpolates between over- and underestimation by
adjusting the level of significance of the underlying hypothesis tests. A
generalization termed $K$-Estimator (KE) obeys the same bias and variance
bounds as the TE while relying on a nearly arbitrary kernel function. Using the
TE and the KE, we introduce modifications of $Q$-Learning and its neural
network analog, the Deep $Q$-Network. The proposed estimators and algorithms
are thoroughly tested and validated on a diverse set of tasks and environments,
illustrating the performance potential of the TE and KE.
- Abstract(参考訳): 価値に基づく強化学習アルゴリズムは、ゲーム、ロボティクス、その他の現実世界のアプリケーションにおいて強力なパフォーマンスを示している。
最も人気のあるサンプルベースメソッドは$q$-learningである。
特定のポリシーに従うと、$Q$-valueは状態-アクションペアの期待値であり、その後、アルゴリズムは現在の$Q$-valueを観測された報酬と次の状態の$Q$-valueの最大値に調整することで更新を行う。
この手順は最大化バイアスを導入し、Double $Q$-Learningのようなソリューションも検討されている。
バイアス問題を統計的に定式化し、確率変数の集合の最大期待値(MEV)を推定する事例とみなす。
平均の2サンプルテストに基づいて,T$-Estimator (TE)を提案する。
TEは、基礎となる仮説テストの重要性のレベルを調整することで、過大評価と過小評価の間に柔軟に補間する。
K$-Estimator (KE) と呼ばれる一般化は、ほぼ任意のカーネル関数に依存しながら、TEと同じバイアスと分散境界に従う。
TEとKEを用いて、$Q$-LearningとそのニューラルネットワークアナログであるDeep $Q$-Networkの修正を導入する。
提案する推定器とアルゴリズムは、様々なタスクと環境上で徹底的にテストされ、検証され、teとkeのパフォーマンスポテンシャルを示す。
関連論文リスト
- Alpha-VI DeepONet: A prior-robust variational Bayesian approach for enhancing DeepONets with uncertainty quantification [0.0]
一般化変分推論(GVI)を組み込んだ新しいディープオペレータネットワーク(DeepONet)を提案する。
分岐ネットワークとトランクネットワークのビルディングブロックとしてベイズニューラルネットワークを組み込むことで,不確実な定量化が可能なDeepONetを実現する。
変動目的関数の修正は平均二乗誤差を最小化する点で優れた結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-08-01T16:22:03Z) - C-Learner: Constrained Learning for Causal Inference and Semiparametric Statistics [5.395560682099634]
そこで本研究では,安定なプラグイン推定を望ましい特性で実現する新しいデバイアス推定器を提案する。
我々の制約学習フレームワークは、プラグイン量に対する一階誤差がゼロであるという制約の下で、最高のプラグイン推定器を解く。
我々の推定器は、処理と制御の重複が限定された挑戦的な環境での一段階推定と目標を上回り、それ以外は比較可能である。
論文 参考訳(メタデータ) (2024-05-15T16:38:28Z) - Echoes of Socratic Doubt: Embracing Uncertainty in Calibrated Evidential Reinforcement Learning [1.7898305876314982]
提案アルゴリズムは,共形推論の原理に基づいて,深い明解学習と量子キャリブレーションを組み合わせる。
ミニチュア化されたアタリゲームスイート(MinAtar)でテストされる。
論文 参考訳(メタデータ) (2024-02-11T05:17:56Z) - Beyond Expectations: Learning with Stochastic Dominance Made Practical [88.06211893690964]
支配は、不確実な結果で意思決定を行うためのリスク-逆の選好をモデル化する。
理論上は魅力的だが、機械学習における優位性の応用は乏しい。
まず支配の概念を一般化し、任意の確率変数の任意のペア間の比較を可能にする。
次に、優位性の観点から最適解を見つけるための単純で効率的なアプローチを開発する。
論文 参考訳(メタデータ) (2024-02-05T03:21:23Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Estimation Error Correction in Deep Reinforcement Learning for
Deterministic Actor-Critic Methods [0.0]
価値に基づく深層強化学習法では、値関数の近似は過大評価バイアスを誘発し、準最適ポリシーをもたらす。
過大評価バイアスを克服することを目的とした深いアクター批判的手法では,エージェントが受信した強化信号に高いばらつきがある場合,顕著な過大評価バイアスが発生することを示す。
過小評価を最小限に抑えるため,パラメータフリーで新しいQ-ラーニングモデルを提案する。
論文 参考訳(メタデータ) (2021-09-22T13:49:35Z) - Instance-optimality in optimal value estimation: Adaptivity via
variance-reduced Q-learning [99.34907092347733]
本稿では,マルコフ決定過程における最適な$Q$値関数を離散状態と動作で推定する問題を解析する。
局所的なミニマックスフレームワークを用いて、この関数は任意の推定手順の精度の低い境界に現れることを示す。
他方,Q$ラーニングの分散還元版を解析することにより,状態と行動空間の対数的要因まで,下位境界のシャープさを確立する。
論文 参考訳(メタデータ) (2021-06-28T00:38:54Z) - Understanding the Under-Coverage Bias in Uncertainty Estimation [58.03725169462616]
量子レグレッションは、現実の望ましいカバレッジレベルよりもアンファンダーカバー(enmphunder-cover)する傾向がある。
我々は、量子レグレッションが固有のアンダーカバーバイアスに悩まされていることを証明している。
我々の理論は、この過大被覆バイアスが特定の高次元パラメータ推定誤差に起因することを明らかにしている。
論文 参考訳(メタデータ) (2021-06-10T06:11:55Z) - Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。
MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文 参考訳(メタデータ) (2020-10-12T17:41:44Z) - Maxmin Q-learning: Controlling the Estimation Bias of Q-learning [31.742397178618624]
過大評価バイアスは、最大推定アクション値を用いて最大アクション値を近似するため、Q-ラーニングに影響を与える。
バイアスを柔軟に制御するためのパラメータを提供するemphMaxmin Q-learningと呼ばれるQ-ラーニングの一般化を提案する。
提案アルゴリズムは,おもちゃの環境における推定バイアスをよりよく制御し,いくつかのベンチマーク問題において優れた性能が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-02-16T02:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。