論文の概要: Semiparametric Best Arm Identification with Contextual Information
- arxiv url: http://arxiv.org/abs/2209.07330v1
- Date: Thu, 15 Sep 2022 14:38:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 12:34:42.607336
- Title: Semiparametric Best Arm Identification with Contextual Information
- Title(参考訳): 文脈情報を用いた半パラメトリックベストアーム識別
- Authors: Masahiro Kato and Masaaki Imaizumi and Takuya Ishihara and Toru
Kitagawa
- Abstract要約: バンディット問題において,固定予算と文脈情報を用いたベストアーム識別について検討した。
本研究では,ターゲットアロケーション比とレコメンデーションルールを追跡するランダムサンプリングルールとからなる「コンテキストRS-AIPW戦略」を開発する。
提案手法は,予算が無限に進むと,誤識別確率の上限が半下限と一致するため,最適である。
- 参考スコア(独自算出の注目度): 10.915684166086026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study best-arm identification with a fixed budget and contextual
(covariate) information in stochastic multi-armed bandit problems. In each
round, after observing contextual information, we choose a treatment arm using
past observations and current context. Our goal is to identify the best
treatment arm, a treatment arm with the maximal expected reward marginalized
over the contextual distribution, with a minimal probability of
misidentification. First, we derive semiparametric lower bounds for this
problem, where we regard the gaps between the expected rewards of the best and
suboptimal treatment arms as parameters of interest, and all other parameters,
such as the expected rewards conditioned on contexts, as the nuisance
parameters. We then develop the "Contextual RS-AIPW strategy," which consists
of the random sampling (RS) rule tracking a target allocation ratio and the
recommendation rule using the augmented inverse probability weighting (AIPW)
estimator. Our proposed Contextual RS-AIPW strategy is optimal because the
upper bound for the probability of misidentification matches the semiparametric
lower bound when the budget goes to infinity, and the gaps converge to zero.
- Abstract(参考訳): 確率的マルチアームバンディット問題における最適アーム識別と文脈情報(共変量)について検討した。
各ラウンドにおいて、コンテキスト情報を観察した後、過去の観察と現在の文脈を用いて治療アームを選択する。
本研究の目的は,文脈分布に限界のある最大報酬を有する治療アームである最善の治療アームを特定し,誤認の可能性を最小限に抑えることである。
まず、この問題に対する半パラメトリックな下限を導出し、ここでは、最適治療アームと最適治療アームの期待報酬のギャップを利害のパラメータとみなし、その他の全てのパラメータ、例えば、コンテキストに条件付けされた期待報酬をニュアンスパラメータとみなす。
次に,目標割当率を追跡するランダムサンプリング(rs)規則と拡張逆確率重み(aipw)推定器を用いた推奨規則からなる「文脈的rs-aipw戦略」を開発した。
提案したコンテキストRS-AIPW戦略は,予算が無限に進むと,誤同定確率の上限が半パラメトリック下限と一致し,ギャップが0に収束するため,最適である。
関連論文リスト
- Optimal Multi-Fidelity Best-Arm Identification [65.23078799972188]
バンディットのベストアーム識別において、アルゴリズムは、できるだけ早く特定の精度で、最高平均報酬の腕を見つけることを任務とする。
マルチフィデリティのベストアーム識別について検討し、低コストで低いフィデリティ(正確な平均推定値を持たない)で腕をサンプリングすることを選択できる。
この問題に対処するためのいくつかの方法が提案されているが、その最適性は、特に最適な腕を特定するのに必要な総コストのゆるやかな下限のため、未解決のままである。
論文 参考訳(メタデータ) (2024-06-05T08:02:40Z) - Pure Exploration for Constrained Best Mixed Arm Identification with a Fixed Budget [6.22018632187078]
固定予算の制約付きベスト・ミックスアーム識別(CBMAI)問題を導入する。
目標は、与えられた学習予算$N$で、期待されるコストの制約によって期待される報酬を最大化する最高の混合アームを見つけることである。
我々は、(最良の混合アームの支持の)誤識別に関する理論上の上限を提供し、予算$N$で指数関数的に崩壊することを示す。
論文 参考訳(メタデータ) (2024-05-23T22:35:11Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Optimal Best Arm Identification with Fixed Confidence in Restless Bandits [66.700654953613]
本研究は,有限個の腕を持つレスレス・マルチアーム・バンディット・セッティングにおけるベスト・アーム識別について検討する。
各アームによって生成された離散時間データは、共通の有限状態空間で値を取る同質マルコフ連鎖を形成する。
その結果,あるマルコフ決定過程の長期的挙動の追跡とその状態-行動的訪問比率が,逆および達成可能性境界を解析するための重要な要素であることが示唆された。
論文 参考訳(メタデータ) (2023-10-20T10:04:05Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Best Arm Identification for Stochastic Rising Bandits [84.55453174601826]
SRB(Rising Bandits)は、選択される度に選択肢の期待される報酬が増加する、シーケンシャルな意思決定の問題をモデル化する。
本稿では,SRBの固定予算ベストアーム識別(BAI)問題に焦点をあてる。
R-UCBE と R-SR の2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-15T08:01:37Z) - Constrained Pure Exploration Multi-Armed Bandits with a Fixed Budget [4.226118870861363]
固定予算の下で、制約のある純粋な探索、多武装バンディットの定式化を検討する。
本稿では,Successive Rejects フレームワークに基づく textscConstrained-SR というアルゴリズムを提案する。
また, ある特別な場合において, 関連する崩壊速度は情報理論的下界に対してほぼ最適であることを示した。
論文 参考訳(メタデータ) (2022-11-27T08:58:16Z) - Beyond the Best: Estimating Distribution Functionals in Infinite-Armed
Bandits [40.71199236098642]
無限武装バンディット問題では、各アームの平均報酬は未知の分布からサンプリングされる。
我々は、最大以上の分布関数の一般的なクラスを検討し、オフラインとオンラインの両方で統一されたメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-01T18:20:10Z) - Optimal Fixed-Budget Best Arm Identification using the Augmented Inverse
Probability Estimator in Two-Armed Gaussian Bandits with Unknown Variances [27.122181278234617]
両腕のガウスバンドにおける固定予算ベストアーム識別問題について検討する。
本稿では,アームドローの目標配置確率を推定し,ランダム化サンプリング(RS)を用いたサンプリングルールを含む戦略を提案する。
提案手法は,サンプルサイズが無限大になり,両腕間のギャップがゼロとなる場合に,不可視的に最適であることを示す。
論文 参考訳(メタデータ) (2022-01-12T13:38:33Z) - The Role of Contextual Information in Best Arm Identification [13.651941268805693]
本研究では,帯域でコンテキスト情報が得られる場合に,信頼度を固定したベストアーム識別問題について検討する。
この問題に対して、インスタンス固有のサンプル複雑性の低い境界を示す。
我々は、文脈情報がより高速なベストアーム識別に寄与することを実験的に確認する。
論文 参考訳(メタデータ) (2021-06-26T18:39:38Z) - Optimal Best-arm Identification in Linear Bandits [79.3239137440876]
サンプルの複雑さが既知のインスタンス固有の下界と一致する単純なアルゴリズムを考案する。
既存のベストアーム識別戦略とは異なり、我々のアルゴリズムは武器の数に依存しない停止規則を用いる。
論文 参考訳(メタデータ) (2020-06-29T14:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。