論文の概要: Tighter Confidence Bounds for Sequential Kernel Regression
- arxiv url: http://arxiv.org/abs/2403.12732v2
- Date: Mon, 11 Nov 2024 16:50:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:05:53.623500
- Title: Tighter Confidence Bounds for Sequential Kernel Regression
- Title(参考訳): シーケンシャルカーネル回帰のためのタイター信頼境界
- Authors: Hamish Flynn, David Reeb,
- Abstract要約: 我々は、シーケンシャルカーネル回帰のための新しい信頼境界を確立するために、マーチンゲールテール不等式を使用する。
私たちの信頼境界は円錐プログラムを解くことで計算できるが、この素バージョンはすぐに非現実的になる。
信頼性境界が既存のものを置き換えると、KernelUCBアルゴリズムはより優れた経験的性能、最悪のパフォーマンス保証、それに匹敵する計算コストが得られます。
- 参考スコア(独自算出の注目度): 3.683202928838613
- License:
- Abstract: Confidence bounds are an essential tool for rigorously quantifying the uncertainty of predictions. They are a core component in many sequential learning and decision-making algorithms, with tighter confidence bounds giving rise to algorithms with better empirical performance and better performance guarantees. In this work, we use martingale tail inequalities to establish new confidence bounds for sequential kernel regression. Our confidence bounds can be computed by solving a conic program, although this bare version quickly becomes impractical, because the number of variables grows with the sample size. However, we show that the dual of this conic program allows us to efficiently compute tight confidence bounds. We prove that our new confidence bounds are always tighter than existing ones in this setting. We apply our confidence bounds to kernel bandit problems, and we find that when our confidence bounds replace existing ones, the KernelUCB (GP-UCB) algorithm has better empirical performance, a matching worst-case performance guarantee and comparable computational cost.
- Abstract(参考訳): 信頼境界(Confidence bounds)は、予測の不確実性を厳格に定量化するための重要なツールである。
それらは、多くのシーケンシャルな学習と意思決定アルゴリズムの中核的なコンポーネントであり、信頼性の強いバウンダリによって、より優れた経験的パフォーマンスとパフォーマンス保証を備えたアルゴリズムが生まれます。
本研究では、マーチンゲールテールの不等式を用いて、シーケンシャルカーネル回帰のための新しい信頼境界を確立する。
私たちの信頼境界は、円錐プログラムを解くことで計算できるが、この素バージョンは、サンプルサイズとともに変数の数が増加するため、すぐに非現実的になる。
しかし、この円錐プログラムの双対性により、厳密な信頼境界を効率的に計算できることが示される。
私たちは、この新しい信頼境界が、この設定の既存の境界よりも常に厳密であることを証明する。
我々は,カーネルバンドイット問題に信頼境界を適用し,信頼境界が既存のものを置き換えると,KernelUCB(GP-UCB)アルゴリズムは実験性能が向上し,最悪の性能保証と計算コストが同等になることを示した。
関連論文リスト
- Improved Algorithms for Stochastic Linear Bandits Using Tail Bounds for
Martingale Mixtures [26.683757807252675]
線形バンディット問題に対する最悪の後悔の保証を施した改良アルゴリズムを提案する。
我々は、我々の信頼シーケンスが、経験的にも理論的にも、競合よりも厳密であることを示す。
論文 参考訳(メタデータ) (2023-09-25T17:13:46Z) - Huber-Robust Confidence Sequences [37.16361789841549]
信頼シーケンスは、逐次追跡可能な信頼区間であり、任意のデータ依存の停止時間で有効である。
非逐次的設定で達成された最適幅を達成するために,結果の信頼性シーケンスが得られたことを示す。
信頼シーケンスは、A/B/nテストやバンドイットで使用される一般的なツールであるため、これらの結果は、外れ値や敵の腐敗に対して堅牢なシーケンシャルな実験への扉を開く。
論文 参考訳(メタデータ) (2023-01-23T17:29:26Z) - Fast Entropy-Based Methods of Word-Level Confidence Estimation for
End-To-End Automatic Speech Recognition [86.21889574126878]
本研究では,フレーム単位のエントロピー値を正規化して集約し,単位単位当たりの信頼度と単語毎の信頼度を求める方法を示す。
提案手法をLibriSpeechテストセット上で評価した結果,最大フレーム当たりの信頼度推定値の最大値から,信頼度推定値の最大値の最大値の最大値の最大値の最大値の2倍,4倍の精度を示した。
論文 参考訳(メタデータ) (2022-12-16T20:27:40Z) - Meta-Learning Hypothesis Spaces for Sequential Decision-making [79.73213540203389]
オフラインデータ(Meta-KeL)からカーネルをメタ学習することを提案する。
穏やかな条件下では、推定されたRKHSが有効な信頼セットを得られることを保証します。
また,ベイズ最適化におけるアプローチの有効性を実証的に評価した。
論文 参考訳(メタデータ) (2022-02-01T17:46:51Z) - Open Problem: Tight Online Confidence Intervals for RKHS Elements [57.363123214464764]
我々は、RKHS設定におけるオンライン信頼区間の質問を形式化し、既存の結果を概観する。
準最適後悔境界がこれらのアルゴリズムの根本的な欠点なのか、あるいは証明の成果物なのかは定かではない。
論文 参考訳(メタデータ) (2021-10-28T22:36:20Z) - Double Coverage with Machine-Learned Advice [100.23487145400833]
オンラインの基本的な$k$-serverの問題を学習強化環境で研究する。
我々のアルゴリズムは任意の k に対してほぼ最適の一貫性-破壊性トレードオフを達成することを示す。
論文 参考訳(メタデータ) (2021-03-02T11:04:33Z) - Off-policy Confidence Sequences [33.749904615295485]
文脈的バンディット設定において,オフポリシー評価に一定時間をかけて保持する信頼度境界を開発する。
計算効率と統計効率のバランスを良くする信頼度列を計算するためのアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-02-18T18:40:30Z) - An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討
4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。
以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T09:51:59Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。