論文の概要: The Role of Contextual Information in Best Arm Identification
- arxiv url: http://arxiv.org/abs/2106.14077v1
- Date: Sat, 26 Jun 2021 18:39:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 13:46:05.056711
- Title: The Role of Contextual Information in Best Arm Identification
- Title(参考訳): ベストアーム識別における文脈情報の役割
- Authors: Masahiro Kato and Kaito Ariu
- Abstract要約: 本研究では,帯域でコンテキスト情報が得られる場合に,信頼度を固定したベストアーム識別問題について検討する。
この問題に対して、インスタンス固有のサンプル複雑性の低い境界を示す。
我々は、文脈情報がより高速なベストアーム識別に寄与することを実験的に確認する。
- 参考スコア(独自算出の注目度): 8.048662426126956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the best-arm identification problem with fixed confidence when
contextual (covariate) information is available in stochastic bandits. Although
we can use contextual information in each round, we are interested in the
marginalized mean reward over the contextual distribution. Our goal is to
identify the best arm with a minimal number of samplings under a given value of
the error rate. We show the instance-specific sample complexity lower bounds
for the problem. Then, we propose a context-aware version of the
"Track-and-Stop" strategy, wherein the proportion of the arm draws tracks the
set of optimal allocations and prove that the expected number of arm draws
matches the lower bound asymptotically. We demonstrate that contextual
information can be used to improve the efficiency of the identification of the
best marginalized mean reward compared with the results of Garivier & Kaufmann
(2016). We experimentally confirm that context information contributes to
faster best-arm identification.
- Abstract(参考訳): 確率的バンディットにおいて文脈情報(共変量)が利用可能である場合、最良のアーム識別問題を一定の信頼性で検討する。
各ラウンドでコンテキスト情報を使用することは可能ですが、文脈分布よりも余分な平均報酬に関心があります。
私たちのゴールは、エラー率の所定の値の下で最小限のサンプリング数で最適なアームを特定することです。
この問題に対して、インスタンス固有のサンプル複雑性の低い境界を示す。
そこで本研究では,アームの比率が最適な割り当てのセットを追跡し,期待されるアームの数が漸近的に下限に一致することを示す「トラック・アンド・ストップ」戦略の文脈対応版を提案する。
本稿では,Garivier & Kaufmann (2016) の結果と比較して,最適辺縁化平均報酬の同定効率を向上させるために,文脈情報を用いることを実証する。
我々は、文脈情報がより高速なベストアーム識別に寄与することを実験的に確認する。
関連論文リスト
- Optimal Multi-Fidelity Best-Arm Identification [65.23078799972188]
バンディットのベストアーム識別において、アルゴリズムは、できるだけ早く特定の精度で、最高平均報酬の腕を見つけることを任務とする。
マルチフィデリティのベストアーム識別について検討し、低コストで低いフィデリティ(正確な平均推定値を持たない)で腕をサンプリングすることを選択できる。
この問題に対処するためのいくつかの方法が提案されているが、その最適性は、特に最適な腕を特定するのに必要な総コストのゆるやかな下限のため、未解決のままである。
論文 参考訳(メタデータ) (2024-06-05T08:02:40Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Worst-Case Optimal Multi-Armed Gaussian Best Arm Identification with a
Fixed Budget [10.470114319701576]
本研究は、腕を最も期待できる結果に識別する実験的な設計問題について検討する。
分散が知られているという仮定のもと、一般化ネマン割当(GNA)-経験的ベストアーム(EBA)戦略を提案する。
GNA-EBA戦略は、誤同定の確率が下界と一致するという意味で無限に最適であることを示す。
論文 参考訳(メタデータ) (2023-10-30T17:52:46Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Covariance Adaptive Best Arm Identification [0.0]
ゴールは、腕のプル数を最小化しながら、最低でも1-$delta$の確率で腕を最も平均的な報酬で識別することである。
武器を頼りにでき、報酬を同時にサンプリングできる、より柔軟なシナリオを提案する。
この枠組みは、患者と薬物の類似性から根底にある相関関係が示唆される臨床試験など、様々な応用に関係している。
論文 参考訳(メタデータ) (2023-06-05T06:57:09Z) - Beyond the Best: Estimating Distribution Functionals in Infinite-Armed
Bandits [40.71199236098642]
無限武装バンディット問題では、各アームの平均報酬は未知の分布からサンプリングされる。
我々は、最大以上の分布関数の一般的なクラスを検討し、オフラインとオンラインの両方で統一されたメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-01T18:20:10Z) - Semiparametric Best Arm Identification with Contextual Information [10.915684166086026]
バンディット問題において,固定予算と文脈情報を用いたベストアーム識別について検討した。
本研究では,ターゲットアロケーション比とレコメンデーションルールを追跡するランダムサンプリングルールとからなる「コンテキストRS-AIPW戦略」を開発する。
提案手法は,予算が無限に進むと,誤識別確率の上限が半下限と一致するため,最適である。
論文 参考訳(メタデータ) (2022-09-15T14:38:47Z) - Information-Gathering in Latent Bandits [79.6953033727455]
本稿では,潜伏バンドにおける情報収集手法を提案する。
我々は、各州に対するエージェントの信念から、最高の腕を選ぶことは、より高い後悔を引き起こすことを示した。
また,腕を慎重に選択することで,状態分布の推定精度が向上することを示した。
論文 参考訳(メタデータ) (2022-07-08T01:15:12Z) - Pure Exploration in Multi-armed Bandits with Graph Side Information [11.633592964399806]
グラフ側情報を用いたマルチアームバンディットの純粋探索について検討する。
この問題に対する新しいアルゴリズムGRUB(GRaph based UcB)を提案する。
利用可能なグラフ側情報を利用することで、純粋な探索法よりも大きな改善がもたらされることが示される。
論文 参考訳(メタデータ) (2021-08-02T20:06:04Z) - Optimal Best-arm Identification in Linear Bandits [79.3239137440876]
サンプルの複雑さが既知のインスタンス固有の下界と一致する単純なアルゴリズムを考案する。
既存のベストアーム識別戦略とは異なり、我々のアルゴリズムは武器の数に依存しない停止規則を用いる。
論文 参考訳(メタデータ) (2020-06-29T14:25:51Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。