論文の概要: Empirical Bound Information-Directed Sampling for Norm-Agnostic Bandits
- arxiv url: http://arxiv.org/abs/2503.05098v1
- Date: Fri, 07 Mar 2025 02:33:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:24:17.148725
- Title: Empirical Bound Information-Directed Sampling for Norm-Agnostic Bandits
- Title(参考訳): ノーム非依存帯域に対する経験的境界情報指向サンプリング
- Authors: Piotr M. Suder, Eric Laber,
- Abstract要約: 本稿では,アキュメレーションデータを用いて,真のパラメータノルム上の高確率上限を反復的に改善する,新しい頻繁なIDSアルゴリズムを提案する。
提案手法は,当初仮定されたパラメータノルム境界に依存しないアルゴリズムに対する後悔境界を確立し,その手法が最先端IDSおよびUPBアルゴリズムより優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Information-directed sampling (IDS) is a powerful framework for solving bandit problems which has shown strong results in both Bayesian and frequentist settings. However, frequentist IDS, like many other bandit algorithms, requires that one have prior knowledge of a (relatively) tight upper bound on the norm of the true parameter vector governing the reward model in order to achieve good performance. Unfortunately, this requirement is rarely satisfied in practice. As we demonstrate, using a poorly calibrated bound can lead to significant regret accumulation. To address this issue, we introduce a novel frequentist IDS algorithm that iteratively refines a high-probability upper bound on the true parameter norm using accumulating data. We focus on the linear bandit setting with heteroskedastic subgaussian noise. Our method leverages a mixture of relevant information gain criteria to balance exploration aimed at tightening the estimated parameter norm bound and directly searching for the optimal action. We establish regret bounds for our algorithm that do not depend on an initially assumed parameter norm bound and demonstrate that our method outperforms state-of-the-art IDS and UCB algorithms.
- Abstract(参考訳): 情報指向サンプリング(IDS)は,ベイジアンおよび頻繁なセッティングにおいて強い結果を示す帯域幅問題を解くための強力なフレームワークである。
しかし、頻繁なIDSは、他の多くのバンディットアルゴリズムと同様に、優れた性能を達成するために報酬モデルを管理する真のパラメータベクトルのノルムに(相対的に)厳密な上限の事前知識を持つことを要求する。
残念ながら、この要件は実際に満たされることはめったにない。
私たちが示すように、調整の不十分なバウンダリの使用は、重大な後悔の蓄積につながる可能性がある。
この問題に対処するために、アキュメレーションデータを用いて真パラメータノルム上の高確率上限を反復的に洗練する、新しい頻繁なIDSアルゴリズムを提案する。
ヘテロスケダス性ガウス雑音による線形帯域設定に着目する。
本手法は,推定パラメータノルムの厳密化と最適動作の直接探索を目的としたバランス探索に,関連する情報ゲイン基準の混合を利用する。
提案手法は,当初仮定されたパラメータノルム境界に依存しないアルゴリズムに対する後悔境界を確立し,その手法が最先端IDSおよびUPBアルゴリズムより優れていることを示す。
関連論文リスト
- Robust Gaussian Processes via Relevance Pursuit [17.39376866275623]
本稿では,データポイント固有ノイズレベルを推定することにより,スパースアウトレーヤに対するロバスト性を実現するGPモデルを提案する。
我々は,データポイント固有ノイズ分散において,関連する対数限界確率が強く抑制されるようなパラメータ化が可能であることを,驚くべきことに示している。
論文 参考訳(メタデータ) (2024-10-31T17:59:56Z) - Robust Learning under Hybrid Noise [24.36707245704713]
本稿では,データリカバリの観点からハイブリッドノイズに対処するため,新たな統合学習フレームワーク"Feature and Label Recovery"(FLR)を提案する。
論文 参考訳(メタデータ) (2024-07-04T16:13:25Z) - SoftPatch: Unsupervised Anomaly Detection with Noisy Data [67.38948127630644]
本稿では,画像センサ異常検出におけるラベルレベルのノイズを初めて考察する。
本稿では,メモリベースの非教師付きAD手法であるSoftPatchを提案する。
既存の手法と比較して、SoftPatchは通常のデータの強力なモデリング能力を維持し、コアセットにおける過信問題を軽減する。
論文 参考訳(メタデータ) (2024-03-21T08:49:34Z) - On the Privacy of Selection Mechanisms with Gaussian Noise [44.577599546904736]
ガウス雑音によるReport Noisy MaxとAbove Thresholdの分析を再検討する。
その結果,Report Noisy Max の純元 DP 境界と Above Threshold の純元 DP 境界を提供することが可能であることがわかった。
論文 参考訳(メタデータ) (2024-02-09T02:11:25Z) - Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z) - Regret Bounds for Expected Improvement Algorithms in Gaussian Process
Bandit Optimization [63.8557841188626]
期待されている改善(EI)アルゴリズムは、不確実性の下で最適化するための最も一般的な戦略の1つである。
本稿では,GP予測平均を通した標準既存値を持つEIの変種を提案する。
我々のアルゴリズムは収束し、$mathcal O(gamma_TsqrtT)$の累積後悔境界を達成することを示す。
論文 参考訳(メタデータ) (2022-03-15T13:17:53Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - Misspecified Gaussian Process Bandit Optimization [59.30399661155574]
カーネル化されたバンディットアルゴリズムは、この問題に対して強い経験的および理論的性能を示した。
本稿では、未知関数を$epsilon$-一様近似で近似できるエンフェミス特定カーネル化帯域設定を、ある再生カーネルヒルベルト空間(RKHS)において有界ノルムを持つ関数で導入する。
提案アルゴリズムは,不特定性に関する事前知識を伴わず,$epsilon$への最適依存を実現する。
論文 参考訳(メタデータ) (2021-11-09T09:00:02Z) - Corruption-Tolerant Gaussian Process Bandit Optimization [130.60115798580136]
未知(典型的には非生成)関数を有界ノルムで最適化する問題を考察する。
我々は「高速だが非ローバスト」と「スロー」に基づく高速スローGP-UCBに基づくアルゴリズムを提案する。
ある種の依存関係は、汚職レベルによっては要求できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-03-04T09:46:58Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z) - Bandit algorithms to emulate human decision making using probabilistic
distortions [20.422725678982726]
報奨分布に歪んだ確率を持つ2つの多重武装バンディット問題を定式化する。
以上のような後悔の最小化の問題と、マルチアームバンディットのための最高の腕識別フレームワークについて考察する。
論文 参考訳(メタデータ) (2016-11-30T17:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。