論文の概要: Fixed-Budget Constrained Best Arm Identification in Grouped Bandits
- arxiv url: http://arxiv.org/abs/2603.04007v1
- Date: Wed, 04 Mar 2026 12:49:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.307693
- Title: Fixed-Budget Constrained Best Arm Identification in Grouped Bandits
- Title(参考訳): グループバンドにおける固定予算制約によるベストアーム識別
- Authors: Raunak Mukherjee, Sharayu Moharir,
- Abstract要約: 我々は,各腕が複数の独立した属性と報酬から構成されるグループバンドにおける固定予算制約付きベストアーム識別について検討した。
実現可能性を確保しつつ、最適な腕を識別する新しいアルゴリズムであるFCSRを提案する。
- 参考スコア(独自算出の注目度): 1.360738859820932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study fixed budget constrained best-arm identification in grouped bandits, where each arm consists of multiple independent attributes with stochastic rewards. An arm is considered feasible only if all its attributes' means are above a given threshold. The aim is to find the feasible arm with the largest overall mean. We first derive a lower bound on the error probability for any algorithm on this setting. We then propose Feasibility Constrained Successive Rejects (FCSR), a novel algorithm that identifies the best arm while ensuring feasibility. We show it attains optimal dependence on problem parameters up to constant factors in the exponent. Empirically, FCSR outperforms natural baselines while preserving feasibility guarantees.
- Abstract(参考訳): 本研究は,各腕が確率的報酬を伴う複数の独立属性から構成されるグループバンドにおける固定予算制約付きベストアーム識別について検討した。
アームは、すべての属性の手段が与えられた閾値を超える場合にのみ実現可能であるとみなされる。
目的は、最も大きな平均を持つ実現可能なアームを見つけることである。
まず、この設定上の任意のアルゴリズムの誤差確率の低い境界を導出する。
次に,実現可能性を確保しつつ,最適な腕を識別する新しいアルゴリズムであるFCSRを提案する。
指数の定数要素まで問題パラメータに最適に依存することを示す。
実証的に、FCSRは実現可能性の保証を維持しながら、自然なベースラインを上回ります。
関連論文リスト
- Optimal Multi-Objective Best Arm Identification with Fixed Confidence [62.36929749450298]
我々は、各アームが選択時にM$Dのベクトル報酬を得られる多腕バンディット設定を考える。
最終的なゴールは、最も短い(予想される)時間において、エラーの確率の上限に従属する全ての目的の最良のアームを特定することである。
本稿では,各ステップでアームをサンプリングするために,エミュロゲート比例という新しいアイデアを用いたアルゴリズムを提案し,各ステップにおける最大最小最適化問題を解く必要をなくした。
論文 参考訳(メタデータ) (2025-01-23T12:28:09Z) - Constrained Best Arm Identification in Grouped Bandits [3.387374559368306]
そこで本研究では,各アームが複数の独立したサブアームから構成されるグループバンドセットについて検討する。
我々は、腕が実現可能であるとみなすためには、その属性のすべての平均報酬が指定された閾値を超えるべきであるという制約を課す。
ゴールは、固定された信頼設定において、実現可能な腕のセットの中で、属性の平均的な報酬が最大となる腕を見つけることである。
論文 参考訳(メタデータ) (2024-12-11T02:19:19Z) - Best-Arm Identification in Unimodal Bandits [24.001611176749158]
本研究では, 固定信頼度ベストアーム識別問題について検討する。
我々は任意の境界の停止時間で2つ下げる。
腕の数に対する線形依存は、信頼性に依存しないコストでは避けられないことを示す。
論文 参考訳(メタデータ) (2024-11-04T09:05:11Z) - Pure Exploration for Constrained Best Mixed Arm Identification with a Fixed Budget [6.22018632187078]
固定予算の制約付きベスト・ミックスアーム識別(CBMAI)問題を導入する。
目標は、与えられた学習予算$N$で、期待されるコストの制約によって期待される報酬を最大化する最高の混合アームを見つけることである。
我々は、(最良の混合アームの支持の)誤識別に関する理論上の上限を提供し、予算$N$で指数関数的に崩壊することを示す。
論文 参考訳(メタデータ) (2024-05-23T22:35:11Z) - Optimal Best Arm Identification with Fixed Confidence in Restless Bandits [66.700654953613]
本研究は,有限個の腕を持つレスレス・マルチアーム・バンディット・セッティングにおけるベスト・アーム識別について検討する。
各アームによって生成された離散時間データは、共通の有限状態空間で値を取る同質マルコフ連鎖を形成する。
その結果,あるマルコフ決定過程の長期的挙動の追跡とその状態-行動的訪問比率が,逆および達成可能性境界を解析するための重要な要素であることが示唆された。
論文 参考訳(メタデータ) (2023-10-20T10:04:05Z) - Constrained Pure Exploration Multi-Armed Bandits with a Fixed Budget [4.226118870861363]
固定予算の下で、制約のある純粋な探索、多武装バンディットの定式化を検討する。
本稿では,Successive Rejects フレームワークに基づく textscConstrained-SR というアルゴリズムを提案する。
また, ある特別な場合において, 関連する崩壊速度は情報理論的下界に対してほぼ最適であることを示した。
論文 参考訳(メタデータ) (2022-11-27T08:58:16Z) - Semiparametric Best Arm Identification with Contextual Information [10.915684166086026]
バンディット問題において,固定予算と文脈情報を用いたベストアーム識別について検討した。
本研究では,ターゲットアロケーション比とレコメンデーションルールを追跡するランダムサンプリングルールとからなる「コンテキストRS-AIPW戦略」を開発する。
提案手法は,予算が無限に進むと,誤識別確率の上限が半下限と一致するため,最適である。
論文 参考訳(メタデータ) (2022-09-15T14:38:47Z) - Best Arm Identification in Restless Markov Multi-Armed Bandits [85.55466536537293]
マルチアームバンディット環境における最適な腕を特定することの問題点について検討する。
決定エンティティは、上限誤差確率を条件として、ベストアームのインデックスをできるだけ早く見つけることを希望する。
このポリシーは、$R$に依存する上限を達成し、$Rtoinfty$として単調に増加しないことを示す。
論文 参考訳(メタデータ) (2022-03-29T04:58:04Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - Optimal Best-arm Identification in Linear Bandits [79.3239137440876]
サンプルの複雑さが既知のインスタンス固有の下界と一致する単純なアルゴリズムを考案する。
既存のベストアーム識別戦略とは異なり、我々のアルゴリズムは武器の数に依存しない停止規則を用いる。
論文 参考訳(メタデータ) (2020-06-29T14:25:51Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。