論文の概要: A unified framework for bandit multiple testing
- arxiv url: http://arxiv.org/abs/2107.07322v1
- Date: Thu, 15 Jul 2021 13:47:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 14:06:48.104488
- Title: A unified framework for bandit multiple testing
- Title(参考訳): バンディット多重テストのための統一フレームワーク
- Authors: Ziyu Xu, Ruodu Wang, Aaditya Ramdas
- Abstract要約: 帯域多重仮説テストでは、各アームはテストしたい異なるnull仮説に対応する。
我々は,探索の分離と証拠の要約を強調する,バンド型FDR制御のための統一的モジュール型フレームワークを提案する。
- 参考スコア(独自算出の注目度): 27.927374651956445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In bandit multiple hypothesis testing, each arm corresponds to a different
null hypothesis that we wish to test, and the goal is to design adaptive
algorithms that correctly identify large set of interesting arms (true
discoveries), while only mistakenly identifying a few uninteresting ones (false
discoveries). One common metric in non-bandit multiple testing is the false
discovery rate (FDR). We propose a unified, modular framework for bandit FDR
control that emphasizes the decoupling of exploration and summarization of
evidence. We utilize the powerful martingale-based concept of ``e-processes''
to ensure FDR control for arbitrary composite nulls, exploration rules and
stopping times in generic problem settings. In particular, valid FDR control
holds even if the reward distributions of the arms could be dependent, multiple
arms may be queried simultaneously, and multiple (cooperating or competing)
agents may be querying arms, covering combinatorial semi-bandit type settings
as well. Prior work has considered in great detail the setting where each arm's
reward distribution is independent and sub-Gaussian, and a single arm is
queried at each step. Our framework recovers matching sample complexity
guarantees in this special case, and performs comparably or better in practice.
For other settings, sample complexities will depend on the finer details of the
problem (composite nulls being tested, exploration algorithm, data dependence
structure, stopping rule) and we do not explore these; our contribution is to
show that the FDR guarantee is clean and entirely agnostic to these details.
- Abstract(参考訳): バンディット多重仮説テストでは、各アームは我々がテストしたい異なるヌル仮説に対応しており、目標は、いくつかの興味深いアーム(真の発見)を正しく識別する適応アルゴリズムを設計することである。
非バンド多重試験における一般的な測定基準は、偽発見率(FDR)である。
我々は,探索の分離と証拠の要約を強調する,バンド型FDR制御のための統一的モジュール化フレームワークを提案する。
We use the powerful martingale-based concept of `e-processes' to ensure FDR control for arbitrary Composite nulls, exploration rules and stop time in generic problem settings。
特に、有効なfdrコントロールは、腕の報酬分布に依存する可能性があるとしても、複数の腕を同時に問い合わせることができ、複数の(協力的または競合する)エージェントが腕をクエリし、組合せ半バンド型の設定もカバーする。
以前の研究は、各腕の報酬分布が独立してガウシアン以下であり、各ステップで1本の腕がクエリされる設定を深く検討してきた。
当社のフレームワークは、この特別なケースでサンプル複雑性の保証をマッチングし、比較可能な、あるいはより優れたパフォーマンスを実現します。
他の設定では、サンプルの複雑さは問題のより細かい部分(テスト対象のnull、探索アルゴリズム、データ依存構造、停止規則)に依存しており、私たちはこれらを探索しません。
関連論文リスト
- Reward Maximization for Pure Exploration: Minimax Optimal Good Arm Identification for Nonparametric Multi-Armed Bandits [35.35226227009685]
グッドアーム識別(グッドアームアイソレーション、英: Good Arm Identification、IGA)は、腕をできるだけ早くしきい値以上の手段でラベル付けすることを目的とした、実用的なバンドイット推論の目的である。
本稿では,報奨最大化サンプリングアルゴリズムと新たな非有意シーケンシャルテストを組み合わせることで,GAを効率よく解くことができることを示す。
我々の実験結果は、ミニマックス設定を超えるアプローチを検証し、すべての停止時間におけるサンプルの期待数を、合成および実世界の設定で少なくとも50%削減する。
論文 参考訳(メタデータ) (2024-10-21T01:19:23Z) - Representative Arm Identification: A fixed confidence approach to identify cluster representatives [7.459521930846415]
マルチアームバンディット(MAB)フレームワークにおける代表腕識別問題について検討する。
RAI問題は、最高の腕や、上位の$K$から$M$を識別するなど、いくつかのよく研究されたMAB問題としてカバーされている。
本稿では,信頼区間の概念に基づく2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-26T11:47:52Z) - High-Dimensional False Discovery Rate Control for Dependent Variables [10.86851797584794]
本稿では,変数間の依存関係構造を利用した依存性認識型T-Rexセレクタを提案する。
可変ペナル化機構がFDR制御を保証することを実証する。
グラフィカルモデルとT-Rexフレームワークのパラメータを同時に決定する完全統合最適キャリブレーションアルゴリズムを定式化する。
論文 参考訳(メタデータ) (2024-01-28T22:56:16Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Algorithms for Adaptive Experiments that Trade-off Statistical Analysis
with Reward: Combining Uniform Random Assignment and Reward Maximization [50.725191156128645]
トンプソンサンプリングのようなマルチアームバンディットアルゴリズムは適応的な実験を行うのに利用できる。
統計的解析のための一様ランダム化の利点を組み合わせた2つのアルゴリズムを探索する2つのアーム実験のシミュレーションを提案する。
論文 参考訳(メタデータ) (2021-12-15T22:11:58Z) - Combinatorial Blocking Bandits with Stochastic Delays [33.65025386998747]
最近の研究は、各腕の報酬が最後の引き抜きから経過した時間の特別な機能であるマルチアームバンディット問題の自然変化を考察している。
本研究では, 上記のモデルを2つの方向に拡張する。 (i) 各ラウンドで複数の腕を演奏できる汎用的な設定を, 実現可能性制約の下で検討する。
我々は、利用可能な(非ブロック化された)アームの中で、常に最大で期待される報酬を再生する自然な欲求部分集合の近似を厳密に分析する。
腕の期待報酬が不明な場合、上記のアルゴリズムを盗賊に適応させる。
論文 参考訳(メタデータ) (2021-05-22T02:46:04Z) - A Novel Confidence-Based Algorithm for Structured Bandits [129.30402124516507]
両腕の報酬が他の腕の報酬と相関する可能性のある有限腕包帯について検討した。
本稿では、与えられた構造を利用して、真のバンディット問題のパラメータに対する信頼セットを構築する新しい位相アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-23T19:52:44Z) - Lower bounds in multiple testing: A framework based on derandomized
proxies [107.69746750639584]
本稿では, 各種コンクリートモデルへの適用例を示す, デランドマイズに基づく分析戦略を提案する。
これらの下界のいくつかを数値シミュレーションし、Benjamini-Hochberg (BH) アルゴリズムの実際の性能と密接な関係を示す。
論文 参考訳(メタデータ) (2020-05-07T19:59:51Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z) - The Price of Incentivizing Exploration: A Characterization via Thompson
Sampling and Sample Complexity [83.81297078039836]
インセンティブ付き探索(Incentivized Exploring)は、武器の選択を自給自足エージェントによって制御するマルチアーム・バンディットのバージョンである。
我々は、インセンティブの価格に焦点を合わせ、インセンティブの適合性のために、広く解釈された、パフォーマンスの喪失が引き起こされる。
論文 参考訳(メタデータ) (2020-02-03T04:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。