論文の概要: Minimax and Bayes Optimal Best-Arm Identification
- arxiv url: http://arxiv.org/abs/2506.24007v3
- Date: Wed, 01 Oct 2025 17:11:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.652905
- Title: Minimax and Bayes Optimal Best-Arm Identification
- Title(参考訳): MinimaxとBayes Optim Best-Arm Identification
- Authors: Masahiro Kato,
- Abstract要約: サンプリングフェーズとレコメンデーションフェーズからなる適応的な手順を検討する。
提案した戦略では,サンプリングフェーズは2段階で構成され,第1段階はパイロットフェーズであり,各アームを等比で均一に割り当てる。
サンプリングフェーズの後、推奨フェーズに入り、最も高いサンプル平均の腕をベストアームの推定値として選択する。
- 参考スコア(独自算出の注目度): 6.44705221140412
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study investigates minimax and Bayes optimal strategies in fixed-budget best-arm identification. We consider an adaptive procedure consisting of a sampling phase followed by a recommendation phase, and we design an adaptive experiment within this framework to efficiently identify the best arm, defined as the one with the highest expected outcome. In our proposed strategy, the sampling phase consists of two stages. The first stage is a pilot phase, in which we allocate each arm uniformly in equal proportions to eliminate clearly suboptimal arms and estimate outcome variances. In the second stage, arms are allocated in proportion to the variances estimated during the first stage. After the sampling phase, the procedure enters the recommendation phase, where we select the arm with the highest sample mean as our estimate of the best arm. We prove that this single strategy is simultaneously asymptotically minimax and Bayes optimal for the simple regret, with upper bounds that coincide exactly with our lower bounds, including the constant terms.
- Abstract(参考訳): 本研究では,固定予算ベストアーム識別におけるミニマックスとベイズ最適戦略について検討する。
我々は,サンプリングフェーズとレコメンデーションフェーズからなる適応的な手順を考察し,このフレームワーク内で最適なアームを効率的に識別する適応的な実験を設計する。
提案手法では,サンプリングフェーズは2段階からなる。
第1段階はパイロットフェーズであり、各アームを等比で均一に割り当て、明らかに最適なアームを排除し、結果のばらつきを推定する。
第2段階では、第1段階で推定される分散に比例してアームが割り当てられる。
サンプリングフェーズの後、推奨フェーズに入り、最も高いサンプル平均の腕をベストアームの推定値として選択する。
この単一戦略が同時に漸近的にミニマックスであり、ベイズが単純な後悔に対して最適であることを証明し、その上界は定数項を含む我々の下界と正確に一致する。
関連論文リスト
- Admissibility of Completely Randomized Trials: A Large-Deviation Approach [4.970364068620608]
治療用アームが少なくとも3つあるときはいつでも、適応的でない完全にランダムな試行を普遍的かつ厳密に支配するシンプルな適応型設計が存在することが分かる。
この優位性は、実験サンプルが大きい場合に設計の統計的効率を定量化する効率指数と呼ばれる概念によって特徴づけられる。
論文 参考訳(メタデータ) (2025-06-05T17:58:43Z) - Towards Regulatory-Confirmed Adaptive Clinical Trials: Machine Learning Opportunities and Solutions [59.28853595868749]
本研究は,全人口と低給付人口の規制制約と治療方針値を統合した将来の臨床試験の新たな2つの目的を紹介する。
我々は、第III相臨床試験を設計するための新しい枠組みであるRFAN(Randomize First Augment Next)を定式化する。
我々のフレームワークは、標準的なランダム化コンポーネントと適応コンポーネントから構成されており、臨床試験中に患者を効率よく安全に獲得し、患者を治療アームに割り当てることを目的としている。
論文 参考訳(メタデータ) (2025-03-12T10:17:54Z) - Optimal Adaptive Experimental Design for Estimating Treatment Effect [14.088972921434761]
本稿では,治療効果を推定する際の最適精度を決定するための基本的な問題に対処する。
二重ロバストな手法の概念を逐次実験設計に取り入れることで、最適推定問題をオンラインバンディット学習問題としてモデル化する。
本稿では,バンディットアルゴリズム設計と適応統計的推定の両方のツールとアイデアを用いて,一般的な低スイッチング適応実験フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-07T23:22:51Z) - Adaptive Experimentation When You Can't Experiment [55.86593195947978]
本稿では,Emphcon founded the pure exploration transductive linear bandit (textttCPET-LB) problem。
オンラインサービスは、ユーザーを特定の治療にインセンティブを与える、適切にランダム化された励ましを利用することができる。
論文 参考訳(メタデータ) (2024-06-15T20:54:48Z) - Adaptive Experimental Design for Policy Learning [8.73717644648873]
実験中に治療用アームを実験単位に割り当てる意思決定者について検討し,実験終了時の文脈に基づいて最適な治療用アームを推奨する。
我々は、最適政策の期待結果と提案された政策の間にある最悪のケースで予想される後悔に焦点を当てる。
この戦略は, 実験単位数が増加するにつれて, 後悔の上界における先頭因子が下界と一致するという意味で, 最小値の速度最適値であることが証明された。
論文 参考訳(メタデータ) (2024-01-08T09:29:07Z) - Worst-Case Optimal Multi-Armed Gaussian Best Arm Identification with a
Fixed Budget [10.470114319701576]
本研究は、腕を最も期待できる結果に識別する実験的な設計問題について検討する。
分散が知られているという仮定のもと、一般化ネマン割当(GNA)-経験的ベストアーム(EBA)戦略を提案する。
GNA-EBA戦略は、誤同定の確率が下界と一致するという意味で無限に最適であることを示す。
論文 参考訳(メタデータ) (2023-10-30T17:52:46Z) - Asymptotically Optimal Fixed-Budget Best Arm Identification with
Variance-Dependent Bounds [10.915684166086026]
単純後悔を最小化するための固定予算ベストアーム識別(BAI)の問題点について検討する。
この決定は,最善腕と推奨腕の期待結果との違いである,期待された単純後悔に基づいて評価する。
我々は,HIR推定器(ヒラノら,2003年)を用いて最適な腕を推奨する2段階(TS-Hirano-Imbens-Ridder-HIR)戦略を提案する。
論文 参考訳(メタデータ) (2023-02-06T18:27:11Z) - TCFimt: Temporal Counterfactual Forecasting from Individual Multiple
Treatment Perspective [50.675845725806724]
個別多面的治療の観点からの時間的対実予測の包括的枠組み(TCFimt)を提案する。
TCFimtは、選択と時間変化バイアスを軽減するためにSeq2seqフレームワークの逆タスクを構築し、比較学習ベースのブロックを設計し、混合処理効果を分離した主治療効果と因果相互作用に分解する。
提案手法は, 特定の治療法による今後の結果予測と, 最先端手法よりも最適な治療タイプとタイミングを選択する上で, 良好な性能を示す。
論文 参考訳(メタデータ) (2022-12-17T15:01:05Z) - Variational Refinement for Importance Sampling Using the Forward
Kullback-Leibler Divergence [77.06203118175335]
変分推論(VI)はベイズ推論における正確なサンプリングの代替として人気がある。
重要度サンプリング(IS)は、ベイズ近似推論手順の推定を微調整し、偏りを逸脱するためにしばしば用いられる。
近似ベイズ推論のための最適化手法とサンプリング手法の新たな組み合わせを提案する。
論文 参考訳(メタデータ) (2021-06-30T11:00:24Z) - Bayesian prognostic covariate adjustment [59.75318183140857]
疾患の結果に関する歴史的データは、様々な方法で臨床試験の分析に組み込むことができる。
我々は, 予測モデルからの予後スコアを用いて, 治療効果推定の効率を向上する既存の文献に基づいて構築する。
論文 参考訳(メタデータ) (2020-12-24T05:19:03Z) - Assisted Probe Positioning for Ultrasound Guided Radiotherapy Using
Image Sequence Classification [55.96221340756895]
前立腺外照射療法における経皮的超音波画像誘導は, 患者設定中の各セッションにおけるプローブと前立腺の整合性を必要とする。
本研究では,画像とプローブ位置データの共同分類により,高精度なプローブ配置を確保する方法を示す。
マルチ入力マルチタスクアルゴリズムを用いて、光学的追跡された超音波プローブからの空間座標データを、繰り返しニューラルネットワークを用いて画像クラスシファイアと組み合わせ、リアルタイムで2セットの予測を生成する。
このアルゴリズムは平均(標準偏差)3.7$circ$ (1.2$circ$)の範囲内で最適なプローブアライメントを同定する。
論文 参考訳(メタデータ) (2020-10-06T13:55:02Z) - Optimal Experimental Design for Staggered Rollouts [11.187415608299075]
本研究は, 治療開始時刻が単位によって異なる複数時間にわたって, 一連の単位に対して実施した実験の設計と解析について検討する。
本稿では,設計段階と治療効果を推定する段階の課題に対処するアルゴリズムとして,精度誘導適応実験(PGAE)を提案する。
論文 参考訳(メタデータ) (2019-11-09T19:46:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。