論文の概要: Generalized Chernoff Sampling for Active Testing, Active Regression and
Structured Bandit Algorithms
- arxiv url: http://arxiv.org/abs/2012.08073v2
- Date: Sat, 27 Feb 2021 09:26:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 11:56:37.822670
- Title: Generalized Chernoff Sampling for Active Testing, Active Regression and
Structured Bandit Algorithms
- Title(参考訳): アクティブテスト、アクティブ回帰、構造化バンドアルゴリズムのための一般化チェルノフサンプリング
- Authors: Subhojyoti Mukherjee, Ardhendu Tripathy, Robert Nowak
- Abstract要約: 本稿では,組織的バンディット設定におけるアクティブラーニングとベストアーム識別について検討する。
チャーノフの元々のアクティブテスト手順に対する新しいサンプル境界複雑性を得る。
- 参考スコア(独自算出の注目度): 16.19565714525819
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Active learning and structured stochastic bandit problems are intimately
related to the classical problem of sequential experimental design. This paper
studies active learning and best-arm identification in structured bandit
settings from the viewpoint of active sequential hypothesis testing, a
framework initiated by Chernoff (1959). We obtain a novel sample complexity
bound for Chernoff's original active testing procedure by uncovering
non-asymptotic terms that reduce in significance as the allowed error
probability $\delta \rightarrow 0$. Initially proposed for testing among
finitely many hypotheses, we obtain the analogue of Chernoff sampling for the
case when the hypotheses belong to a compact space. This allows us to directly
apply it to active learning and structured bandit problems, where the unknown
parameter specifying the arm means is often assumed to be an element of
Euclidean space. Empirically, we demonstrate the potential of our proposed
approach for active learning of neural network models and in linear and
non-linear bandit settings, where we observe that our general-purpose approach
compares favorably to state-of-the-art methods.
- Abstract(参考訳): アクティブラーニングと構造化確率バンディット問題は、逐次実験設計の古典的な問題と密接に関連している。
本稿では,Chernoff (1959) が開始したフレームワークであるアクティブシーケンシャル仮説テストの観点から,構造化バンディット設定におけるアクティブラーニングとベストアーム識別について検討する。
許容誤差確率 $\delta \rightarrow 0$ として重要性を低下させる非漸近項を明らかにすることにより、チャーノフのもともとの能動試験手順に結びついた新しいサンプル複雑性を得る。
当初、有限個の仮説間のテストのために提案され、仮説がコンパクト空間に属する場合のチャーンオフサンプリングの類似性を得る。
これにより、arm平均を指定する未知のパラメータがユークリッド空間の要素であると仮定される場合、アクティブラーニングや構造化バンディット問題に直接適用することができる。
本研究では,ニューラルネットワークモデルおよび線形および非線形バンディット設定におけるアクティブラーニング手法の可能性を実証し,本手法が最先端手法と好適に比較できることを示す。
関連論文リスト
- Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Adaptive Experimentation When You Can't Experiment [55.86593195947978]
本稿では,Emphcon founded the pure exploration transductive linear bandit (textttCPET-LB) problem。
オンラインサービスは、ユーザーを特定の治療にインセンティブを与える、適切にランダム化された励ましを利用することができる。
論文 参考訳(メタデータ) (2024-06-15T20:54:48Z) - Hypothesis Testing for Class-Conditional Noise Using Local Maximum
Likelihood [1.8798171797988192]
教師付き学習では、学習が行われる前にラベルの質を自動的に評価することがオープンな研究課題である。
本稿では,本モデルが局所極大近似推定の積である場合,同様の手順を踏襲できることを示す。
この異なるビューは、よりリッチなモデルクラスへのアクセスを提供することで、テストのより広範な適用を可能にする。
論文 参考訳(メタデータ) (2023-12-15T22:14:58Z) - Active hypothesis testing in unknown environments using recurrent neural
networks and model free reinforcement learning [0.0]
我々は、事前の確率、行動と観測セット、および観測生成過程について仮定しない。
本手法は,連続的な観察や行動であっても任意の環境で使用することができ,Chernoff試験よりも競合的に,時には優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-03-19T10:32:25Z) - Shortcomings of Top-Down Randomization-Based Sanity Checks for
Evaluations of Deep Neural Network Explanations [67.40641255908443]
モデルランダム化に基づく正当性チェックの限界を,説明書の評価のために同定する。
トップダウンモデルランダム化は、フォワードパスアクティベーションのスケールを高い確率で保存する。
論文 参考訳(メタデータ) (2022-11-22T18:52:38Z) - Hypothesis Transfer in Bandits by Weighted Models [8.759884299087835]
我々は,仮説伝達学習の設定において,文脈的マルチアームバンディットの問題を考える。
転送が望まれる場合に,古典的リニア UCB に対する後悔の軽減を示す再重み付け方式を示す。
さらに,この手法を任意の量のソースモデルに拡張し,各ステップでどのモデルが好まれるかをアルゴリズムが決定する。
論文 参考訳(メタデータ) (2022-11-14T14:13:02Z) - Provably and Practically Efficient Neural Contextual Bandits [16.0251555430107]
有限状態においても有効である証明可能なサブ線形後悔境界を持つアルゴリズムを提案する。
非漸近的エラー境界は、神経コンテキストの包帯における活性化関数の滑らかさとカーネルの包帯におけるカーネルの滑らかさとの関係を確立するためのツールとして、より広い関心を持つかもしれない。
論文 参考訳(メタデータ) (2022-05-31T20:16:55Z) - Unknown Face Presentation Attack Detection via Localised Learning of
Multiple Kernels [15.000818334408802]
この論文は、未知のタイプの攻撃の要求シナリオにおいて、スプーフィング、つまりプレゼンテーションアタック検出(PAD)に直面している。
局所的なカーネル重みの集合に結合行列-ノルム制約を課すことにより、凸局所化多重カーネル学習アルゴリズムを定式化する。
論文 参考訳(メタデータ) (2022-04-22T12:43:25Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - A Low Rank Promoting Prior for Unsupervised Contrastive Learning [108.91406719395417]
提案手法は,従来の低階の促進をコントラスト学習の枠組みに効果的に組み込む新しい確率的グラフィカルモデルを構築する。
我々の仮説は、同じインスタンスクラスに属するすべてのサンプルが、小さな次元の同じ部分空間上にあることを明示的に要求する。
実証的な証拠は、提案アルゴリズムが複数のベンチマークにおける最先端のアプローチを明らかに上回っていることを示している。
論文 参考訳(メタデータ) (2021-08-05T15:58:25Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。