論文の概要: Deep anytime-valid hypothesis testing
- arxiv url: http://arxiv.org/abs/2310.19384v1
- Date: Mon, 30 Oct 2023 09:46:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 20:58:12.704980
- Title: Deep anytime-valid hypothesis testing
- Title(参考訳): 深部随時仮説テスト
- Authors: Teodora Pandeva and Patrick Forr\'e and Aaditya Ramdas and Shubhanshu
Shekhar
- Abstract要約: 非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。
テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。
合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
- 参考スコア(独自算出の注目度): 29.273915933729057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a general framework for constructing powerful, sequential
hypothesis tests for a large class of nonparametric testing problems. The null
hypothesis for these problems is defined in an abstract form using the action
of two known operators on the data distribution. This abstraction allows for a
unified treatment of several classical tasks, such as two-sample testing,
independence testing, and conditional-independence testing, as well as modern
problems, such as testing for adversarial robustness of machine learning (ML)
models. Our proposed framework has the following advantages over classical
batch tests: 1) it continuously monitors online data streams and efficiently
aggregates evidence against the null, 2) it provides tight control over the
type I error without the need for multiple testing correction, 3) it adapts the
sample size requirement to the unknown hardness of the problem. We develop a
principled approach of leveraging the representation capability of ML models
within the testing-by-betting framework, a game-theoretic approach for
designing sequential tests. Empirical results on synthetic and real-world
datasets demonstrate that tests instantiated using our general framework are
competitive against specialized baselines on several tasks.
- Abstract(参考訳): 本研究では,非パラメトリックテスト問題に対する強力な逐次的仮説テストを構築するための汎用フレームワークを提案する。
これらの問題のヌル仮説は、データ分布上の2つの既知の演算子の作用を用いて抽象形式で定義される。
この抽象化により、2サンプルテスト、独立テスト、条件付き独立テストのような古典的なタスクを統一的に扱うことができ、機械学習(ML)モデルの対角的堅牢性のテストのような現代の問題も解決できる。
提案するフレームワークは,従来のバッチテストよりも次のような利点がある。
1)オンラインデータストリームを継続的に監視し、nullに対する証拠を効率的に集約する。
2) 複数のテストの修正を必要とせず、タイプiエラーの厳密な制御を提供する。
3) 問題の未知の硬さにサンプルサイズ要件を適用する。
逐次テストの設計のためのゲーム理論的アプローチであるtest-by-bettingフレームワークにおいて,mlモデルの表現能力を活用するための原則的アプローチを開発した。
合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、いくつかのタスクにおける特別なベースラインと競合していることを示している。
関連論文リスト
- Context-Aware Testing: A New Paradigm for Model Testing with Large Language Models [49.06068319380296]
我々は,コンテキストを帰納バイアスとして用いて意味のあるモデル障害を探索するコンテキスト認識テスト(CAT)を導入する。
最初のCATシステムSMART Testingをインスタンス化し、大きな言語モデルを用いて、関連性があり、起こりうる失敗を仮説化します。
論文 参考訳(メタデータ) (2024-10-31T15:06:16Z) - SYNTHEVAL: Hybrid Behavioral Testing of NLP Models with Synthetic CheckLists [59.08999823652293]
我々は,NLPモデルの包括的評価のために,SyntheVALを提案する。
最後の段階では、人間の専門家が困難な例を調査し、手動でテンプレートを設計し、タスク固有のモデルが一貫して示す障害の種類を特定します。
我々は、感情分析と有害言語検出という2つの分類課題にSynTHEVALを適用し、これらの課題における強力なモデルの弱点を特定するのに、我々のフレームワークが有効であることを示す。
論文 参考訳(メタデータ) (2024-08-30T17:41:30Z) - Precise Error Rates for Computationally Efficient Testing [75.63895690909241]
本稿では,計算複雑性に着目した単純な対数-単純仮説テストの問題を再考する。
線形スペクトル統計に基づく既存の試験は、I型とII型の誤差率の間の最良のトレードオフ曲線を達成する。
論文 参考訳(メタデータ) (2023-11-01T04:41:16Z) - Can You Rely on Your Model Evaluation? Improving Model Evaluation with
Synthetic Test Data [75.20035991513564]
本稿では,モデル評価を容易にする深層生成モデリングフレームワークである3Sテストを紹介する。
私たちの実験では、3Sテストが従来のベースラインより優れていることが示されています。
これらの結果は、限られた実テストデータから合成テストデータへのパラダイムシフトが必要かどうかという問題を提起する。
論文 参考訳(メタデータ) (2023-10-25T10:18:44Z) - Validation of massively-parallel adaptive testing using dynamic control
matching [0.0]
現代のビジネスはしばしば同時に多数のA/B/nテストを実行し、多くのコンテンツバリエーションを同じメッセージにパッケージ化する。
本稿では, 連続試験適応条件下での各種試験の因果効果を解消する手法を提案する。
論文 参考訳(メタデータ) (2023-05-02T11:28:12Z) - Active Sequential Two-Sample Testing [18.99517340397671]
サンプル測定が安価に利用できる新しいシナリオでは,この2サンプルテストの問題を考慮する。
我々は,emphactiveNIST-sampleテストフレームワークを考案し,逐次クエリだけでなく,emphactivelyクエリも考案した。
実際に、我々はフレームワークのインスタンス化を導入し、いくつかの実験を用いて評価する。
論文 参考訳(メタデータ) (2023-01-30T02:23:49Z) - Sequential Kernelized Independence Testing [101.22966794822084]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z) - Model-Free Sequential Testing for Conditional Independence via Testing
by Betting [8.293345261434943]
提案されたテストでは、任意の依存関係構造を持つ入ってくるi.d.データストリームを分析できる。
重要な結果が検出されれば,オンライン上でのデータポイントの処理を可能とし,データ取得を停止する。
論文 参考訳(メタデータ) (2022-10-01T20:05:33Z) - Learn then Test: Calibrating Predictive Algorithms to Achieve Risk
Control [67.52000805944924]
Learn then Test (LTT)は、機械学習モデルを校正するフレームワークである。
私たちの主な洞察は、リスクコントロール問題を複数の仮説テストとして再設計することです。
我々は、コンピュータビジョンの詳細な実例を用いて、コア機械学習タスクの新しいキャリブレーション手法を提供するために、我々のフレームワークを使用します。
論文 参考訳(メタデータ) (2021-10-03T17:42:03Z) - Significance tests of feature relevance for a blackbox learner [6.72450543613463]
ブラックボックス学習者の特徴関連性に関する2つの一貫した試験を導出する。
第1は、推論サンプルの摂動による損失差を評価する。
2つ目は推論サンプルを2つに分割するが、データの摂動は必要ない。
論文 参考訳(メタデータ) (2021-03-02T00:59:19Z) - Double Generative Adversarial Networks for Conditional Independence
Testing [8.359770027722275]
高次元条件独立テストは統計学と機械学習の重要な構成要素である。
本稿では,GAN(Double Generative Adversarial Network)に基づく推論手法を提案する。
論文 参考訳(メタデータ) (2020-06-03T16:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。