論文の概要: Optimal Simple Regret in Bayesian Best Arm Identification
- arxiv url: http://arxiv.org/abs/2111.09885v1
- Date: Thu, 18 Nov 2021 18:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 13:56:45.132545
- Title: Optimal Simple Regret in Bayesian Best Arm Identification
- Title(参考訳): ベイジアンベストアーム識別における最適簡易レグレット
- Authors: Junpei Komiyama, Kaito Ariu, Masahiro Kato and Chao Qin
- Abstract要約: マルチアームバンディット問題におけるベイズ的ベストアーム識別について考察する。
ベイズ的単純後悔の主因は、最適腕と準最適腕のギャップが$sqrtfraclog TT$より小さい地域に由来する。
- 参考スコア(独自算出の注目度): 11.682267239746357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider Bayesian best arm identification in the multi-armed bandit
problem. Assuming certain continuity conditions of the prior, we characterize
the rate of the Bayesian simple regret. Differing from Bayesian regret
minimization (Lai, 1987), the leading factor in Bayesian simple regret derives
from the region where the gap between optimal and sub-optimal arms is smaller
than $\sqrt{\frac{\log T}{T}}$. We propose a simple and easy-to-compute
algorithm with its leading factor matches with the lower bound up to a constant
factor; simulation results support our theoretical findings.
- Abstract(参考訳): 我々は多腕バンディット問題においてベイズ最高の腕の識別を考える。
前者の一定の連続性条件を仮定すると、ベイズ的単純後悔の速度を特徴づける。
ベイズ人の後悔の最小化 (lai, 1987) とは異なり、ベイズ人の単純な後悔の主要な要因は、最適腕と準最適腕の差が$\sqrt{\frac{\log t}{t}}$よりも小さい領域に由来する。
我々は,その主因子が定数まで下限と一致するような,単純で容易に計算可能なアルゴリズムを提案する。
関連論文リスト
- Best Arm Identification with Minimal Regret [55.831935724659175]
最高の腕識別問題 優雅にアマルガメートは、最小化とBAIを後悔している。
エージェントの目標は、所定の信頼度で最高の腕を特定することである。
二重KL-UCBアルゴリズムは、信頼度がゼロになる傾向があるため、最適性を達成する。
論文 参考訳(メタデータ) (2024-09-27T16:46:02Z) - Optimal Multi-Fidelity Best-Arm Identification [65.23078799972188]
バンディットのベストアーム識別において、アルゴリズムは、できるだけ早く特定の精度で、最高平均報酬の腕を見つけることを任務とする。
マルチフィデリティのベストアーム識別について検討し、低コストで低いフィデリティ(正確な平均推定値を持たない)で腕をサンプリングすることを選択できる。
この問題に対処するためのいくつかの方法が提案されているが、その最適性は、特に最適な腕を特定するのに必要な総コストのゆるやかな下限のため、未解決のままである。
論文 参考訳(メタデータ) (2024-06-05T08:02:40Z) - Thompson Exploration with Best Challenger Rule in Best Arm
Identification [66.33448474838342]
本稿では,バンドイットフレームワークにおける固定信頼度最良腕識別問題について検討する。
我々は、トンプソンサンプリングと、ベストチャレンジャールールとして知られる計算効率の良いアプローチを組み合わせた新しいポリシーを提案する。
論文 参考訳(メタデータ) (2023-10-01T01:37:02Z) - Bayesian Fixed-Budget Best-Arm Identification [24.31655036648236]
固定予算ベストアーム識別(英語: Fixed-budget best-arm identification、BAI)は、エージェントが一定の予算内で最適な腕を特定する確率を最大化する盗賊問題である。
ベイズ除去アルゴリズムを提案し、最適な腕を誤識別する確率の上限を導出する。
論文 参考訳(メタデータ) (2022-11-15T23:29:51Z) - Suboptimal Performance of the Bayes Optimal Algorithm in Frequentist Best Arm Identification [5.176134438571082]
正規分布による報酬を伴う固定予算ベストアーム識別問題を考察する。
この問題では、予測者は、腕(または治療)が$K$、タイムステップが$T$である。
アルゴリズムの性能は、推定されたベストアームの品質を反映して、単純な後悔によって評価される。
論文 参考訳(メタデータ) (2022-02-10T17:50:26Z) - Optimal Regret Is Achievable with Bounded Approximate Inference Error:
An Enhanced Bayesian Upper Confidence Bound Framework [22.846260353176614]
本稿では,帯域幅問題に効率的に対応できる拡張ベイズアッパー信頼境界(EBUCB)フレームワークを提案する。
EBUCBは2つの異なる$alpha$-divergencesで測定された推論誤差が定数以下である場合、最適後悔順序$O(log T)$を達成可能であることを示す。
我々の研究は、定数近似推論誤差の設定において$o(T)$よりも良い最初の理論的後悔境界を提供する。
論文 参考訳(メタデータ) (2022-01-31T01:36:15Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - Regret Minimization in Heavy-Tailed Bandits [12.272975892517039]
マルチアームバンディット設定における古典的後悔最小化問題を再考する。
本稿では,1次項における下界を正確に一致させる最適アルゴリズムを提案する。
我々の指数は、よく知られたトリミングまたはトリミングされた経験的平均推定値よりも速く集中していることを示す。
論文 参考訳(メタデータ) (2021-02-07T07:46:24Z) - Lenient Regret for Multi-Armed Bandits [72.56064196252498]
エージェントが順番に行動を選択し、その行動に対する報酬を観察するマルチアーマッド・バンディット(MAB)問題を考察する。
アルゴリズムの大多数は、後悔、すなわち最高の行動の報酬とエージェントの行動の累積的な差を最小化しようとするが、この基準は望ましくない結果をもたらすかもしれない。
我々は、いくつかの$epsilon$よりも小さな最適性ギャップを無視した、より寛大で寛大で後悔すべき基準を提案する。
論文 参考訳(メタデータ) (2020-08-10T08:30:52Z) - Optimal Best-arm Identification in Linear Bandits [79.3239137440876]
サンプルの複雑さが既知のインスタンス固有の下界と一致する単純なアルゴリズムを考案する。
既存のベストアーム識別戦略とは異なり、我々のアルゴリズムは武器の数に依存しない停止規則を用いる。
論文 参考訳(メタデータ) (2020-06-29T14:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。