論文の概要: Open Problem: Tight Online Confidence Intervals for RKHS Elements
- arxiv url: http://arxiv.org/abs/2110.15458v1
- Date: Thu, 28 Oct 2021 22:36:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-01 23:22:09.756557
- Title: Open Problem: Tight Online Confidence Intervals for RKHS Elements
- Title(参考訳): オープン・イシュー:RKHS要素のオンライン信頼区間を厳格化
- Authors: Sattar Vakili, Jonathan Scarlett, Tara Javidi
- Abstract要約: 我々は、RKHS設定におけるオンライン信頼区間の質問を形式化し、既存の結果を概観する。
準最適後悔境界がこれらのアルゴリズムの根本的な欠点なのか、あるいは証明の成果物なのかは定かではない。
- 参考スコア(独自算出の注目度): 57.363123214464764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Confidence intervals are a crucial building block in the analysis of various
online learning problems. The analysis of kernel based bandit and reinforcement
learning problems utilize confidence intervals applicable to the elements of a
reproducing kernel Hilbert space (RKHS). However, the existing confidence
bounds do not appear to be tight, resulting in suboptimal regret bounds. In
fact, the existing regret bounds for several kernelized bandit algorithms
(e.g., GP-UCB, GP-TS, and their variants) may fail to even be sublinear. It is
unclear whether the suboptimal regret bound is a fundamental shortcoming of
these algorithms or an artifact of the proof, and the main challenge seems to
stem from the online (sequential) nature of the observation points. We
formalize the question of online confidence intervals in the RKHS setting and
overview the existing results.
- Abstract(参考訳): 信頼区間は、様々なオンライン学習問題の分析において重要な構成要素である。
カーネルベースの帯域幅と強化学習問題の解析は、再生カーネルヒルベルト空間(RKHS)の要素に適用可能な信頼区間を利用する。
しかし、既存の信頼境界は厳密でないようで、最適でない後悔境界となる。
実際、いくつかのカーネル化された帯域幅アルゴリズム(例えば、GP-UCB、GP-TS、およびそれらの変種)の既存の後悔境界は、サブ線形でないかもしれない。
準最適後悔境界がこれらのアルゴリズムの根本的な欠点なのか、あるいは証明の成果なのかは不明であり、主な課題は観察点のオンライン的(逐次的な)性質に由来すると思われる。
RKHS設定におけるオンライン信頼区間の質問を形式化し、既存の結果を概観する。
関連論文リスト
- Error Bounds For Gaussian Process Regression Under Bounded Support Noise With Applications To Safety Certification [12.813902876908127]
本稿では,ガウス過程回帰(GPR)を有界支持雑音下で適用するための新しい誤差境界を提案する。
これらのエラーは、既存の最先端境界よりもかなり強く、特にニューラルネットワークカーネルのGPRに適していることを示す。
これらの境界を障壁関数と組み合わせて、未知の力学系の安全性確率を定量化する方法について説明する。
論文 参考訳(メタデータ) (2024-08-16T22:03:32Z) - Tighter Confidence Bounds for Sequential Kernel Regression [3.683202928838613]
我々は、シーケンシャルカーネル回帰のための新しい信頼境界を確立するために、マーチンゲールテール不等式を使用する。
私たちの信頼境界は円錐プログラムを解くことで計算できるが、この素バージョンはすぐに非現実的になる。
信頼性境界が既存のものを置き換えると、KernelUCBアルゴリズムはより優れた経験的性能、最悪のパフォーマンス保証、それに匹敵する計算コストが得られます。
論文 参考訳(メタデータ) (2024-03-19T13:47:35Z) - On the Sublinear Regret of GP-UCB [58.25014663727544]
ガウス過程上信頼境界 (GP-UCB) アルゴリズムは, ほぼ最適の後悔率を有することを示す。
私たちの改善は、基盤となるカーネルの滑らかさに比例してカーネルリッジ推定を正規化するという、重要な技術的貢献に依存しています。
論文 参考訳(メタデータ) (2023-07-14T13:56:11Z) - Adaptation to Misspecified Kernel Regularity in Kernelised Bandits [27.912690223941386]
翻訳不変核の正則性に対する適応性について検討する。
規則性が異なる一対のRKHSにおいて、最適な累積後悔を同時に達成することは不可能である。
連続武器付き帯域における適応性の統計的困難さを3つの基本型関数空間で結合する。
論文 参考訳(メタデータ) (2023-04-26T21:12:45Z) - Meta-Learning Hypothesis Spaces for Sequential Decision-making [79.73213540203389]
オフラインデータ(Meta-KeL)からカーネルをメタ学習することを提案する。
穏やかな条件下では、推定されたRKHSが有効な信頼セットを得られることを保証します。
また,ベイズ最適化におけるアプローチの有効性を実証的に評価した。
論文 参考訳(メタデータ) (2022-02-01T17:46:51Z) - Confidence-Budget Matching for Sequential Budgeted Learning [69.77435313099366]
問合せ予算で意思決定問題を定式化する。
我々は,多腕バンディット,線形バンディット,強化学習問題を考察する。
我々は,CBMに基づくアルゴリズムが逆性の存在下で良好に動作することを示す。
論文 参考訳(メタデータ) (2021-02-05T19:56:31Z) - Near-Optimal Confidence Sequences for Bounded Random Variables [5.901337162013615]
オンライン推論の根本的な問題は、成長する無限小サンプルサイズに対して均一に有効である信頼区間のシーケンスを提供することである。
我々は,ベンツクスの濃度値を利用して,有界確率変数のほぼ最適確率列を提供する。
得られた信頼性シーケンスは、合成カバレッジ問題と適応停止アルゴリズムへの応用の両方において好適であることが確認された。
論文 参考訳(メタデータ) (2020-06-09T02:50:01Z) - Optimal Change-Point Detection with Training Sequences in the Large and
Moderate Deviations Regimes [72.68201611113673]
本稿では,情報理論の観点から,新しいオフライン変化点検出問題について検討する。
基礎となる事前および変更後分布の知識は分かっておらず、利用可能なトレーニングシーケンスからのみ学習できると仮定する。
論文 参考訳(メタデータ) (2020-03-13T23:39:40Z) - Corruption-Tolerant Gaussian Process Bandit Optimization [130.60115798580136]
未知(典型的には非生成)関数を有界ノルムで最適化する問題を考察する。
我々は「高速だが非ローバスト」と「スロー」に基づく高速スローGP-UCBに基づくアルゴリズムを提案する。
ある種の依存関係は、汚職レベルによっては要求できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-03-04T09:46:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。