論文の概要: Covariance Adaptive Best Arm Identification
- arxiv url: http://arxiv.org/abs/2306.02630v2
- Date: Wed, 20 Dec 2023 15:01:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 19:13:22.402732
- Title: Covariance Adaptive Best Arm Identification
- Title(参考訳): 共分散適応型ベストアーム同定
- Authors: El Mehdi Saad (CentraleSup\'el\'ec), Gilles Blanchard (LMO,
DATASHAPE), Nicolas Verzelen (MISTEA)
- Abstract要約: ゴールは、腕のプル数を最小化しながら、最低でも1-$delta$の確率で腕を最も平均的な報酬で識別することである。
武器を頼りにでき、報酬を同時にサンプリングできる、より柔軟なシナリオを提案する。
この枠組みは、患者と薬物の類似性から根底にある相関関係が示唆される臨床試験など、様々な応用に関係している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of best arm identification in the multi-armed bandit
model, under fixed confidence. Given a confidence input $\delta$, the goal is
to identify the arm with the highest mean reward with a probability of at least
1 -- $\delta$, while minimizing the number of arm pulls. While the literature
provides solutions to this problem under the assumption of independent arms
distributions, we propose a more flexible scenario where arms can be dependent
and rewards can be sampled simultaneously. This framework allows the learner to
estimate the covariance among the arms distributions, enabling a more efficient
identification of the best arm. The relaxed setting we propose is relevant in
various applications, such as clinical trials, where similarities between
patients or drugs suggest underlying correlations in the outcomes. We introduce
new algorithms that adapt to the unknown covariance of the arms and demonstrate
through theoretical guarantees that substantial improvement can be achieved
over the standard setting. Additionally, we provide new lower bounds for the
relaxed setting and present numerical simulations that support their
theoretical findings.
- Abstract(参考訳): 我々は、固定信頼の下で、マルチアームバンディットモデルにおける最適な腕識別の問題を考える。
信頼度$\delta$が与えられた場合、ゴールは、腕のプル数を最小化しながら、少なくとも1-$\delta$の確率で、最も高い平均報酬を持つ腕を特定することである。
独立アーム分布を仮定して,この問題に対する文献は解決するが,本論文では,アームが依存し,報酬が同時にサンプリングできる,より柔軟なシナリオを提案する。
この枠組みにより、学習者は腕の分布の共分散を推定でき、最良の腕をより効率的に識別することができる。
本研究は,患者と薬剤の類似性から,その結果の相関関係が示唆される臨床試験など,様々な応用に関係している。
我々は、未知の腕の共分散に適応する新しいアルゴリズムを導入し、理論的な保証を通じて、標準設定よりも大幅に改善できることを示す。
さらに、緩和された設定に対する新しい下限と、それらの理論的結果を支持する数値シミュレーションを提案する。
関連論文リスト
- Optimal Multi-Fidelity Best-Arm Identification [65.23078799972188]
バンディットのベストアーム識別において、アルゴリズムは、できるだけ早く特定の精度で、最高平均報酬の腕を見つけることを任務とする。
マルチフィデリティのベストアーム識別について検討し、低コストで低いフィデリティ(正確な平均推定値を持たない)で腕をサンプリングすることを選択できる。
この問題に対処するためのいくつかの方法が提案されているが、その最適性は、特に最適な腕を特定するのに必要な総コストのゆるやかな下限のため、未解決のままである。
論文 参考訳(メタデータ) (2024-06-05T08:02:40Z) - Pure Exploration for Constrained Best Mixed Arm Identification with a Fixed Budget [6.22018632187078]
固定予算の制約付きベスト・ミックスアーム識別(CBMAI)問題を導入する。
目標は、与えられた学習予算$N$で、期待されるコストの制約によって期待される報酬を最大化する最高の混合アームを見つけることである。
我々は、(最良の混合アームの支持の)誤識別に関する理論上の上限を提供し、予算$N$で指数関数的に崩壊することを示す。
論文 参考訳(メタデータ) (2024-05-23T22:35:11Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Worst-Case Optimal Multi-Armed Gaussian Best Arm Identification with a
Fixed Budget [10.470114319701576]
本研究は、腕を最も期待できる結果に識別する実験的な設計問題について検討する。
分散が知られているという仮定のもと、一般化ネマン割当(GNA)-経験的ベストアーム(EBA)戦略を提案する。
GNA-EBA戦略は、誤同定の確率が下界と一致するという意味で無限に最適であることを示す。
論文 参考訳(メタデータ) (2023-10-30T17:52:46Z) - Optimal Best Arm Identification with Fixed Confidence in Restless Bandits [66.700654953613]
本研究は,有限個の腕を持つレスレス・マルチアーム・バンディット・セッティングにおけるベスト・アーム識別について検討する。
各アームによって生成された離散時間データは、共通の有限状態空間で値を取る同質マルコフ連鎖を形成する。
その結果,あるマルコフ決定過程の長期的挙動の追跡とその状態-行動的訪問比率が,逆および達成可能性境界を解析するための重要な要素であることが示唆された。
論文 参考訳(メタデータ) (2023-10-20T10:04:05Z) - Beyond the Best: Estimating Distribution Functionals in Infinite-Armed
Bandits [40.71199236098642]
無限武装バンディット問題では、各アームの平均報酬は未知の分布からサンプリングされる。
我々は、最大以上の分布関数の一般的なクラスを検討し、オフラインとオンラインの両方で統一されたメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-01T18:20:10Z) - Best Arm Identification in Restless Markov Multi-Armed Bandits [85.55466536537293]
マルチアームバンディット環境における最適な腕を特定することの問題点について検討する。
決定エンティティは、上限誤差確率を条件として、ベストアームのインデックスをできるだけ早く見つけることを希望する。
このポリシーは、$R$に依存する上限を達成し、$Rtoinfty$として単調に増加しないことを示す。
論文 参考訳(メタデータ) (2022-03-29T04:58:04Z) - Exploiting Heterogeneity in Robust Federated Best-Arm Identification [19.777265059976337]
Fed-SELは、逐次除去技術に基づく単純な通信効率のアルゴリズムであり、クライアントのローカルサンプリングステップを含む。
異種問題の場合、Fed-SELは1ラウンドの通信でベストアームを出力する。
最後のコントリビューションとして、フェデレーションとピアツーピア設定の両方を対象としてFed-SELの亜種を開発しました。
論文 参考訳(メタデータ) (2021-09-13T04:22:21Z) - Quantile Bandits for Best Arms Identification [10.294977861990203]
多腕バンディットにおける最適な腕識別タスクの変種について検討する。
リスクと逆の意思決定の問題によって動機づけられた当社の目標は、固定予算内で最高の$tau$-quantileの値を持つ、$m$の武器のセットを特定することです。
論文 参考訳(メタデータ) (2020-10-22T09:58:54Z) - Optimal Best-arm Identification in Linear Bandits [79.3239137440876]
サンプルの複雑さが既知のインスタンス固有の下界と一致する単純なアルゴリズムを考案する。
既存のベストアーム識別戦略とは異なり、我々のアルゴリズムは武器の数に依存しない停止規則を用いる。
論文 参考訳(メタデータ) (2020-06-29T14:25:51Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。