Fugu-MT 論文翻訳(概要): Quantile Bandits for Best Arms Identification

論文の概要: Quantile Bandits for Best Arms Identification

arxiv url: http://arxiv.org/abs/2010.11568v2
Date: Fri, 11 Jun 2021 12:17:41 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-04 07:16:19.929620
Title: Quantile Bandits for Best Arms Identification
Title（参考訳）: ベストアーム識別のための量子帯域
Authors: Mengyan Zhang and Cheng Soon Ong
Abstract要約: 多腕バンディットにおける最適な腕識別タスクの変種について検討する。リスクと逆の意思決定の問題によって動機づけられた当社の目標は、固定予算内で最高の$tau$-quantileの値を持つ、$m$の武器のセットを特定することです。
参考スコア（独自算出の注目度）: 10.294977861990203
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider a variant of the best arm identification task in stochastic multi-armed bandits. Motivated by risk-averse decision-making problems, our goal is to identify a set of $m$ arms with the highest $\tau$-quantile values within a fixed budget. We prove asymmetric two-sided concentration inequalities for order statistics and quantiles of random variables that have non-decreasing hazard rate, which may be of independent interest. With these inequalities, we analyse a quantile version of Successive Accepts and Rejects (Q-SAR). We derive an upper bound for the probability of arm misidentification, the first justification of a quantile based algorithm for fixed budget multiple best arms identification. We show illustrative experiments for best arm identification.
Abstract（参考訳）: 確率的マルチアームバンディットにおける最適な腕識別タスクの変種を考察する。リスク回避的な意思決定問題に動機づけられた我々の目標は、固定予算内で最も高い$\tau$-quantile値を持つ1組の$m$armを特定することです。非減少ハザード率を持つ確率変数の順序統計および量子化に対する非対称な両側濃度不等式は、独立な関心を持つ可能性がある。これらの不等式により、逐次アクセプション・アンド・リジェクト(Q-SAR)の量子バージョンを分析する。我々は,固定予算複数腕識別のための分位数に基づくアルゴリズムの最初の正当化である腕誤認の確率の上限を導出する。最善の腕の識別実験を例示する。

関連論文リスト

An Algorithm for Fixed Budget Best Arm Identification with Combinatorial Exploration [3.9901365062418312]
我々は、K$$armed banditフレームワークにおける最適な腕識別問題を考察する。エージェントは1つのアームではなく、各タイムスロットでアームのサブセットをプレイすることができる。我々は、$log K$グループを構築し、最適なアームの存在を検出するための確率比テストを実行するアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-02-03T15:10:08Z)
Optimal Multi-Objective Best Arm Identification with Fixed Confidence [62.36929749450298]
我々は、各アームが選択時にM$Dのベクトル報酬を得られる多腕バンディット設定を考える。最終的なゴールは、最も短い(予想される)時間において、エラーの確率の上限に従属する全ての目的の最良のアームを特定することである。本稿では,各ステップでアームをサンプリングするために,エミュロゲート比例という新しいアイデアを用いたアルゴリズムを提案し,各ステップにおける最大最小最適化問題を解く必要をなくした。
論文参考訳（メタデータ） (2025-01-23T12:28:09Z)
Representative Arm Identification: A fixed confidence approach to identify cluster representatives [7.459521930846415]
マルチアームバンディット(MAB)フレームワークにおける代表腕識別問題について検討する。 RAI問題は、最高の腕や、上位の$K$から$M$を識別するなど、いくつかのよく研究されたMAB問題としてカバーされている。本稿では,信頼区間の概念に基づく2つのアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-08-26T11:47:52Z)
Pure Exploration for Constrained Best Mixed Arm Identification with a Fixed Budget [6.22018632187078]
固定予算の制約付きベスト・ミックスアーム識別(CBMAI)問題を導入する。目標は、与えられた学習予算$N$で、期待されるコストの制約によって期待される報酬を最大化する最高の混合アームを見つけることである。我々は、(最良の混合アームの支持の)誤識別に関する理論上の上限を提供し、予算$N$で指数関数的に崩壊することを示す。
論文参考訳（メタデータ） (2024-05-23T22:35:11Z)
Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文参考訳（メタデータ） (2023-12-19T13:17:43Z)
Optimal Best Arm Identification with Fixed Confidence in Restless Bandits [66.700654953613]
本研究は,有限個の腕を持つレスレス・マルチアーム・バンディット・セッティングにおけるベスト・アーム識別について検討する。各アームによって生成された離散時間データは、共通の有限状態空間で値を取る同質マルコフ連鎖を形成する。その結果,あるマルコフ決定過程の長期的挙動の追跡とその状態-行動的訪問比率が,逆および達成可能性境界を解析するための重要な要素であることが示唆された。
論文参考訳（メタデータ） (2023-10-20T10:04:05Z)
Covariance Adaptive Best Arm Identification [0.0]
ゴールは、腕のプル数を最小化しながら、最低でも1-$delta$の確率で腕を最も平均的な報酬で識別することである。武器を頼りにでき、報酬を同時にサンプリングできる、より柔軟なシナリオを提案する。この枠組みは、患者と薬物の類似性から根底にある相関関係が示唆される臨床試験など、様々な応用に関係している。
論文参考訳（メタデータ） (2023-06-05T06:57:09Z)
Bayesian Fixed-Budget Best-Arm Identification [24.31655036648236]
固定予算ベストアーム識別(英語: Fixed-budget best-arm identification、BAI)は、エージェントが一定の予算内で最適な腕を特定する確率を最大化する盗賊問題である。ベイズ除去アルゴリズムを提案し、最適な腕を誤識別する確率の上限を導出する。
論文参考訳（メタデータ） (2022-11-15T23:29:51Z)
Best Arm Identification in Restless Markov Multi-Armed Bandits [85.55466536537293]
マルチアームバンディット環境における最適な腕を特定することの問題点について検討する。決定エンティティは、上限誤差確率を条件として、ベストアームのインデックスをできるだけ早く見つけることを希望する。このポリシーは、$R$に依存する上限を達成し、$Rtoinfty$として単調に増加しないことを示す。
論文参考訳（メタデータ） (2022-03-29T04:58:04Z)
Best Arm Identification under Additive Transfer Bandits [49.69203462561861]
提案手法は, 未知であるにもかかわらず, ソースとターゲットMABインスタンスの間には, 付加的な関係があることが知られている。本稿では,LUCBスタイルのアルゴリズムを理論的に解析し,高い確率で$epsilon$-optimal target armを同定する。
論文参考訳（メタデータ） (2021-12-08T02:20:18Z)
Optimal Best-arm Identification in Linear Bandits [79.3239137440876]
サンプルの複雑さが既知のインスタンス固有の下界と一致する単純なアルゴリズムを考案する。既存のベストアーム識別戦略とは異なり、我々のアルゴリズムは武器の数に依存しない停止規則を用いる。
論文参考訳（メタデータ） (2020-06-29T14:25:51Z)
Quantile Multi-Armed Bandits: Optimal Best-Arm Identification and a Differentially Private Scheme [16.1694012177079]
我々は,多腕バンディットにおける最高の武器識別問題,潜在的に私的な報酬について検討する。ゴールは、固定された所定のレベルで、最も高い定量値を持つ腕を特定することである。このアルゴリズムは$delta$-PACであり,サンプルの複雑さを特徴付ける。
論文参考訳（メタデータ） (2020-06-11T20:23:43Z)
Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文参考訳（メタデータ） (2020-03-05T21:29:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。