Fugu-MT 論文翻訳(概要): HAVER: Instance-Dependent Error Bounds for Maximum Mean Estimation and Applications to Q-Learning

論文の概要: HAVER: Instance-Dependent Error Bounds for Maximum Mean Estimation and Applications to Q-Learning

arxiv url: http://arxiv.org/abs/2411.00405v1
Date: Fri, 01 Nov 2024 07:05:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.217915
Title: HAVER: Instance-Dependent Error Bounds for Maximum Mean Estimation and Applications to Q-Learning
Title（参考訳）: HAVER:最大平均値推定のためのインスタンス依存エラー境界とQ-Learningへの応用
Authors: Tuan Ngo Nguyen, Kwang-Sung Jun,
Abstract要約: そこで本研究では,K$分布中の最大平均値の固有値をサンプルを用いて推定する問題について検討する。 HAVERと呼ばれる新しいアルゴリズムを提案し,その平均二乗誤差を解析する。
参考スコア（独自算出の注目度）: 11.026588768210601
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study the problem of estimating the \emph{value} of the largest mean among $K$ distributions via samples from them (rather than estimating \emph{which} distribution has the largest mean), which arises from various machine learning tasks including Q-learning and Monte Carlo tree search. While there have been a few proposed algorithms, their performance analyses have been limited to their biases rather than a precise error metric. In this paper, we propose a novel algorithm called HAVER (Head AVERaging) and analyze its mean squared error. Our analysis reveals that HAVER has a compelling performance in two respects. First, HAVER estimates the maximum mean as well as the oracle who knows the identity of the best distribution and reports its sample mean. Second, perhaps surprisingly, HAVER exhibits even better rates than this oracle when there are many distributions near the best one. Both of these improvements are the first of their kind in the literature, and we also prove that the naive algorithm that reports the largest empirical mean does not achieve these bounds. Finally, we confirm our theoretical findings via numerical experiments including bandits and Q-learning scenarios where HAVER outperforms baseline methods.
Abstract（参考訳）: 本研究では,Q-ラーニングやモンテカルロ木探索などの機械学習タスクから生じる,K$分布の最大平均値の推定問題(最大平均値の推定よりも)について検討する。提案されたアルゴリズムはいくつかあるが、その性能分析は正確な誤差測定よりもバイアスに限られている。本稿では,HAVER(Head Averaging)と呼ばれる新しいアルゴリズムを提案し,その平均二乗誤差を解析する。分析の結果,HAVERは2つの点で魅力的な性能を示した。まず、HAVERは最適な分布の正当性を知っており、そのサンプル平均を報告している神託とともに、最大平均を推定する。第二に、おそらく意外なことに、HAVERは、最も良いものの近くに多くの分布がある場合、このオラクルよりもずっと良いレートを示す。これらの改善はともに文献上では最初のものであり、また、最も大きな経験的平均を報告したナイーブアルゴリズムがこれらの境界を達成できないことも証明している。最後に,HAVERがベースライン法より優れる帯域幅やQ-ラーニングシナリオを含む数値実験により理論的知見を確認した。

関連論文リスト

An Efficient Permutation-Based Kernel Two-Sample Test [13.229867216847534]
2サンプル仮説テストは統計学と機械学習の基本的な問題である。本研究では,最大平均誤差(MMD)のNystr "om approxation"を用いて,計算効率よく実用的なテストアルゴリズムを設計する。
論文参考訳（メタデータ） (2025-02-19T09:22:48Z)
Adaptive Sampled Softmax with Inverted Multi-Index: Methods, Theory and Applications [79.53938312089308]
MIDX-Samplerは、逆多重インデックスアプローチに基づく新しい適応型サンプリング戦略である。本手法は, サンプリングバイアス, 勾配バイアス, 収束速度, 一般化誤差境界などの重要な問題に対処するため, 厳密な理論的解析によって裏付けられている。
論文参考訳（メタデータ） (2025-01-15T04:09:21Z)
An Upper Confidence Bound Approach to Estimating the Maximum Mean [0.0]
本研究では, 上限値の最大値の推定について, 上限値 (UCB) を用いて検討した。両推定器の強い一貫性、平均二乗誤差、中央極限定理(CLT)を含む統計的保証を確立する。
論文参考訳（メタデータ） (2024-08-08T02:53:09Z)
RaBitQ: Quantizing High-Dimensional Vectors with a Theoretical Error Bound for Approximate Nearest Neighbor Search [16.389851096504277]
本稿では,RabQ という新しいランダム化量子化手法を提案し,D$次元ベクトルを$D$ビット文字列に量子化する。 RaBitQは、シャープな理論的エラー境界を保証し、同時に優れた経験的精度を提供する。さらに,ビットワイズ演算やSIMDに基づく演算での距離を推定するRaBitQの効率的な実装についても紹介する。
論文参考訳（メタデータ） (2024-05-21T04:55:04Z)
Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文参考訳（メタデータ） (2023-12-19T13:17:43Z)
Optimal Multi-Distribution Learning [88.3008613028333]
マルチディストリビューション学習は、$k$の異なるデータ分散における最悪のリスクを最小限に抑える共有モデルを学ぶことを目指している。本稿では, (d+k)/varepsilon2の順に, サンプルの複雑さを伴って, ヴァレプシロン最適ランダム化仮説を導出するアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-12-08T16:06:29Z)
Partial identification of kernel based two sample tests with mismeasured data [5.076419064097733]
最大平均離散性(MMD)のような2サンプルテストは、機械学習アプリケーションにおける2つの分布の違いを検出するためにしばしば使用される。我々は,1つの分布の非ランダムな$epsilon$%が互いに誤ってグループ化されるような,$epsilon$-contaminationに基づくMDDの推定について検討した。そこで本研究では,これらの境界を推定する手法を提案し,サンプルサイズが大きくなるにつれてMDD上の最も鋭い限界に収束する推定値を示す。
論文参考訳（メタデータ） (2023-08-07T13:21:58Z)
Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。 BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文参考訳（メタデータ） (2021-10-24T10:23:51Z)
Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文参考訳（メタデータ） (2021-06-07T17:47:16Z)
Ensemble Bootstrapping for Q-Learning [15.07549655582389]
Ensemble Bootstrapped Q-Learning(EBQL)という新しいバイアス低減アルゴリズムを紹介します。 EBQLライクな更新は、独立確率変数の集合の最大平均を推定する際に低いMSEをもたらす。過大評価と過小評価の両方が準最適性能をもたらす領域が存在することを示す。
論文参考訳（メタデータ） (2021-02-28T10:19:47Z)
Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。 MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文参考訳（メタデータ） (2020-10-12T17:41:44Z)
Breaking the Sample Size Barrier in Model-Based Reinforcement Learning with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文参考訳（メタデータ） (2020-05-26T17:53:18Z)
Computationally efficient sparse clustering [67.95910835079825]
我々はPCAに基づく新しいクラスタリングアルゴリズムの有限サンプル解析を行う。ここでは,ミニマックス最適誤クラスタ化率を,体制$|theta infty$で達成することを示す。
論文参考訳（メタデータ） (2020-05-21T17:51:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。