論文の概要: An Algorithm for Fixed Budget Best Arm Identification with Combinatorial Exploration
- arxiv url: http://arxiv.org/abs/2502.01429v1
- Date: Mon, 03 Feb 2025 15:10:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:57:54.444251
- Title: An Algorithm for Fixed Budget Best Arm Identification with Combinatorial Exploration
- Title(参考訳): 組合せ探索を用いた固定予算ベストアーム同定アルゴリズム
- Authors: Siddhartha Parupudi, Gourab Ghatak,
- Abstract要約: 我々は、K$$armed banditフレームワークにおける最適な腕識別問題を考察する。
エージェントは1つのアームではなく、各タイムスロットでアームのサブセットをプレイすることができる。
我々は、$log K$グループを構築し、最適なアームの存在を検出するための確率比テストを実行するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 3.9901365062418312
- License:
- Abstract: We consider the best arm identification (BAI) problem in the $K-$armed bandit framework with a modification - the agent is allowed to play a subset of arms at each time slot instead of one arm. Consequently, the agent observes the sample average of the rewards of the arms that constitute the probed subset. Several trade-offs arise here - e.g., sampling a larger number of arms together results in a wider view of the environment, while sampling fewer arms enhances the information about individual reward distributions. Furthermore, grouping a large number of suboptimal arms together albeit reduces the variance of the reward of the group, it may enhance the group mean to make it close to that containing the optimal arm. To solve this problem, we propose an algorithm that constructs $\log_2 K$ groups and performs a likelihood ratio test to detect the presence of the best arm in each of these groups. Then a Hamming decoding procedure determines the unique best arm. We derive an upper bound for the error probability of the proposed algorithm based on a new hardness parameter $H_4$. Finally, we demonstrate cases under which it outperforms the state-of-the-art algorithms for the single play case.
- Abstract(参考訳): 我々は、K$$armed banditフレームワークにおける最高の腕識別(BAI)問題に修正を加え、エージェントは片腕ではなく、各タイムスロットで腕のサブセットをプレイできる。
これにより、プローブされたサブセットを構成するアームの報酬のサンプル平均を観察する。
例えば、多数の腕をまとめてサンプリングすると、より広い環境観が得られる一方、より少ない腕をサンプリングすることで、個々の報酬分布に関する情報が強化される。
さらに、多数の準最適腕をまとめることで、報酬の分散を減少させるが、グループを最適な腕を含むものに近いものにすることができる。
この問題を解決するために,$\log_2 K$グループを構築し,各グループに最適なアームが存在することを検出する確率比検定を行うアルゴリズムを提案する。
そして、ハミング復号法が一意のベストアームを決定する。
我々は,新しい硬度パラメータである$H_4$に基づいて,提案アルゴリズムの誤差確率の上限を導出する。
最後に,1つのプレイケースに対して,最先端のアルゴリズムよりも優れるケースを実演する。
関連論文リスト
- Breaking the $\log(1/Δ_2)$ Barrier: Better Batched Best Arm Identification with Adaptive Grids [28.547030766096956]
ほぼ最適なサンプル複雑性を実現するアルゴリズムを導入し、インスタンスに敏感なバッチ複雑性を特徴とする。
我々は、この枠組みを線形包帯におけるバッチ化されたベストアーム識別の問題に拡張し、同様の改善を実現する。
論文 参考訳(メタデータ) (2025-01-29T01:40:36Z) - Optimal Multi-Objective Best Arm Identification with Fixed Confidence [62.36929749450298]
我々は、各アームが選択時にM$Dのベクトル報酬を得られる多腕バンディット設定を考える。
最終的なゴールは、最も短い(予想される)時間において、エラーの確率の上限に従属する全ての目的の最良のアームを特定することである。
本稿では,各ステップでアームをサンプリングするために,エミュロゲート比例という新しいアイデアを用いたアルゴリズムを提案し,各ステップにおける最大最小最適化問題を解く必要をなくした。
論文 参考訳(メタデータ) (2025-01-23T12:28:09Z) - A General Framework for Clustering and Distribution Matching with Bandit Feedback [81.50716021326194]
我々は,帯域幅フィードバックを用いたクラスタリングと分散マッチング問題のための一般的なフレームワークを開発する。
誤り確率が$delta$を超えない任意のオンラインアルゴリズムに対して、平均アームプル数に基づいて漸近的でない下界を導出する。
我々の洗練された分析により、アルゴリズムの平均的なアームプル数が、$delta$が消えるにつれて、基本的限界に収束する速度に縛られる新しい現象が明らかになった。
論文 参考訳(メタデータ) (2024-09-08T12:19:12Z) - Representative Arm Identification: A fixed confidence approach to identify cluster representatives [7.459521930846415]
マルチアームバンディット(MAB)フレームワークにおける代表腕識別問題について検討する。
RAI問題は、最高の腕や、上位の$K$から$M$を識別するなど、いくつかのよく研究されたMAB問題としてカバーされている。
本稿では,信頼区間の概念に基づく2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-26T11:47:52Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - Covariance Adaptive Best Arm Identification [0.0]
ゴールは、腕のプル数を最小化しながら、最低でも1-$delta$の確率で腕を最も平均的な報酬で識別することである。
武器を頼りにでき、報酬を同時にサンプリングできる、より柔軟なシナリオを提案する。
この枠組みは、患者と薬物の類似性から根底にある相関関係が示唆される臨床試験など、様々な応用に関係している。
論文 参考訳(メタデータ) (2023-06-05T06:57:09Z) - Max-Quantile Grouped Infinite-Arm Bandits [39.7239093424124]
無限に多くの腕からなる群が多数存在するバンド問題。
本稿では,まず各グループから一定数のアームを要求し,次に有限腕グループ化された最大量子帯域幅アルゴリズムを実行する2段階アルゴリズムを提案する。
インスタンス依存と最悪のケースの後悔の両方を特徴付け、後者に一致する下位境界を提供します。
論文 参考訳(メタデータ) (2022-10-04T00:46:49Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - Optimal Best-arm Identification in Linear Bandits [79.3239137440876]
サンプルの複雑さが既知のインスタンス固有の下界と一致する単純なアルゴリズムを考案する。
既存のベストアーム識別戦略とは異なり、我々のアルゴリズムは武器の数に依存しない停止規則を用いる。
論文 参考訳(メタデータ) (2020-06-29T14:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。