論文の概要: Prior-Dependent Allocations for Bayesian Fixed-Budget Best-Arm
Identification in Structured Bandits
- arxiv url: http://arxiv.org/abs/2402.05878v1
- Date: Thu, 8 Feb 2024 18:13:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 13:38:02.606501
- Title: Prior-Dependent Allocations for Bayesian Fixed-Budget Best-Arm
Identification in Structured Bandits
- Title(参考訳): ベイジアン固定型ベストアーム同定のための事前依存配置法
- Authors: Nicolas Nguyen, Imad Aouali, Andr\'as Gy\"orgy, Claire Vernade
- Abstract要約: 本研究では, ベイジアン固定予算ベストアーム識別(BAI)の問題について検討する。
本稿では,事前情報と環境構造に基づく固定割当を用いたアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 5.362453227879925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of Bayesian fixed-budget best-arm identification (BAI)
in structured bandits. We propose an algorithm that uses fixed allocations
based on the prior information and the structure of the environment. We provide
theoretical bounds on its performance across diverse models, including the
first prior-dependent upper bounds for linear and hierarchical BAI. Our key
contribution is introducing new proof methods that result in tighter bounds for
multi-armed BAI compared to existing methods. We extensively compare our
approach to other fixed-budget BAI methods, demonstrating its consistent and
robust performance in various settings. Our work improves our understanding of
Bayesian fixed-budget BAI in structured bandits and highlights the
effectiveness of our approach in practical scenarios.
- Abstract(参考訳): 本研究では, ベイジアン固定予算ベストアーム識別(BAI)の問題について検討する。
本稿では,事前情報と環境構造に基づく固定配置を用いたアルゴリズムを提案する。
我々は、線形および階層的 bai に対する最初の事前依存上界を含む、様々なモデルにおけるその性能に関する理論的境界を提供する。
我々の重要な貢献は、既存の方法に比べて、より厳密なBAI境界をもたらす新しい証明方法の導入である。
我々は,我々のアプローチを他の固定予算BAI手法と比較し,その一貫性と堅牢性を示す。
本研究は,ベイジアン固定予算BAIの構造化帯域における理解を改善し,実践シナリオにおけるアプローチの有効性を強調した。
関連論文リスト
- Improving Thompson Sampling via Information Relaxation for Budgeted Multi-armed Bandits [1.4732811715354452]
我々は、各アームが選択時に異なるリソースを消費する、$Kの武器付きバンディット問題を考える。
我々はトンプソンサンプリングのようにランダム化される一連のアルゴリズムを提案するが、予算制約に関してより慎重に決定を最適化する。
論文 参考訳(メタデータ) (2024-08-28T04:56:06Z) - UCB Exploration for Fixed-Budget Bayesian Best Arm Identification [0.0]
固定予算設定におけるベストアーム識別(BAI)について検討した。
ベイズ条件下での固定予算BAI問題に対して理論的かつ実験的に効率的であるUPB探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-09T05:15:36Z) - Bayesian Fixed-Budget Best-Arm Identification [24.31655036648236]
固定予算ベストアーム識別(英語: Fixed-budget best-arm identification、BAI)は、エージェントが一定の予算内で最適な腕を特定する確率を最大化する盗賊問題である。
ベイズ除去アルゴリズムを提案し、最適な腕を誤識別する確率の上限を導出する。
論文 参考訳(メタデータ) (2022-11-15T23:29:51Z) - Best Arm Identification under Additive Transfer Bandits [49.69203462561861]
提案手法は, 未知であるにもかかわらず, ソースとターゲットMABインスタンスの間には, 付加的な関係があることが知られている。
本稿では,LUCBスタイルのアルゴリズムを理論的に解析し,高い確率で$epsilon$-optimal target armを同定する。
論文 参考訳(メタデータ) (2021-12-08T02:20:18Z) - Bayesian decision-making under misspecified priors with applications to
meta-learning [64.38020203019013]
トンプソンサンプリングやその他のシーケンシャルな意思決定アルゴリズムは、文脈的包帯における探索と探索のトレードオフに取り組むための一般的なアプローチである。
性能は不特定な事前条件で優雅に低下することを示す。
論文 参考訳(メタデータ) (2021-07-03T23:17:26Z) - Fixed-Budget Best-Arm Identification in Structured Bandits [33.27743152847947]
固定予算設定におけるベストアーム識別(BAI)は、学習エージェントが一定の回数の観測後に最適な(ベスト)腕を特定する確率を最大化する盗賊問題である。
結合一般化モデルから平均報酬推定値に基づいて最適アームを除去し,構造を組み込んだ一般トラクタブルアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-09T01:32:43Z) - Towards Minimax Optimal Best Arm Identification in Linear Bandits [95.22854522340938]
固定予算設定における線形包帯における最適な腕識別の問題について検討する。
G-最適設計の特性を活用し、アーム割り当て規則に組み込むことにより、パラメータフリーなアルゴリズムを設計する。
OD-LinBAIの故障確率に関する理論的解析を行った。
論文 参考訳(メタデータ) (2021-05-27T09:19:10Z) - Upper Confidence Bounds for Combining Stochastic Bandits [52.10197476419621]
バンディットアルゴリズムを結合する簡単な手法を提案する。
私たちのアプローチは、個々のbanditアルゴリズムのそれぞれを、より高いレベルのn$-armed bandit問題のアームとして扱う"meta-ucb"手順に基づいています。
論文 参考訳(メタデータ) (2020-12-24T05:36:29Z) - Posterior Differential Regularization with f-divergence for Improving
Model Robustness [95.05725916287376]
クリーン入力とノイズ入力のモデル後部差を規則化する手法に着目する。
後微分正則化を$f$-divergencesの族に一般化する。
実験の結果, 後方微分を$f$-divergenceで正規化することで, モデルロバスト性の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2020-10-23T19:58:01Z) - Structure Adaptive Algorithms for Stochastic Bandits [22.871155520200773]
構造化多武装バンディット問題のクラスにおける報酬最大化について検討する。
平均的な武器の報酬は、与えられた構造的制約を満たす。
我々は、反復的なサドルポイントソルバを用いて、インスタンス依存の低バウンドからのアルゴリズムを開発する。
論文 参考訳(メタデータ) (2020-07-02T08:59:54Z) - Optimal Best-arm Identification in Linear Bandits [79.3239137440876]
サンプルの複雑さが既知のインスタンス固有の下界と一致する単純なアルゴリズムを考案する。
既存のベストアーム識別戦略とは異なり、我々のアルゴリズムは武器の数に依存しない停止規則を用いる。
論文 参考訳(メタデータ) (2020-06-29T14:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。