論文の概要: Label efficient two-sample test
- arxiv url: http://arxiv.org/abs/2111.08861v1
- Date: Wed, 17 Nov 2021 01:55:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 23:20:07.552160
- Title: Label efficient two-sample test
- Title(参考訳): ラベル効率2サンプル試験
- Authors: Weizhi Li, Gautam Dasarathy, Karthikeyan Natesan Ramamurthy, Visar
Berisha
- Abstract要約: 2サンプル試験は、2つのサンプルが同じ分布(ヌル仮説)または2つの異なる分布(代替仮説)の実現であるかどうかを評価する。
本稿では,古典的な2サンプルテスト問題におけるこの重要な変化を,2サンプルテストの実行に供する少数のサンプルのラベルを取得する問題として考察する。
まず、ラベルの後方確率をモデル化するための一様ラベル付きサンプルを用いて分類器を訓練し、次に、emphbimodal queryと呼ばれる革新的なクエリスキームを用いてラベルを問合せする。
- 参考スコア(独自算出の注目度): 39.0914588747459
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Two-sample tests evaluate whether two samples are realizations of the same
distribution (the null hypothesis) or two different distributions (the
alternative hypothesis). In the traditional formulation of this problem, the
statistician has access to both the measurements (feature variables) and the
group variable (label variable). However, in several important applications,
feature variables can be easily measured but the binary label variable is
unknown and costly to obtain. In this paper, we consider this important
variation on the classical two-sample test problem and pose it as a problem of
obtaining the labels of only a small number of samples in service of performing
a two-sample test. We devise a label efficient three-stage framework: firstly,
a classifier is trained with samples uniformly labeled to model the posterior
probabilities of the labels; secondly, an innovative query scheme dubbed
\emph{bimodal query} is used to query labels of samples from both classes with
maximum posterior probabilities, and lastly, the classical Friedman-Rafsky (FR)
two-sample test is performed on the queried samples. Our theoretical analysis
shows that bimodal query is optimal for the FR test under reasonable conditions
and that the three-stage framework controls the Type I error. Extensive
experiments performed on synthetic, benchmark, and application-specific
datasets demonstrate that the three-stage framework has decreased Type II error
over uniform querying and certainty-based querying with same number of labels
while controlling the Type I error.
- Abstract(参考訳): 2サンプル試験は、2つのサンプルが同じ分布(ヌル仮説)または2つの異なる分布(代替仮説)の実現であるかどうかを評価する。
この問題の伝統的な定式化では、統計学者は測定値(特徴変数)と群変数(ラベル変数)の両方にアクセスできる。
しかし、いくつかの重要なアプリケーションでは、特徴変数は容易に測定できるが、バイナリラベル変数は未知であり、取得にコストがかかる。
本稿では,従来の2つのサンプルテスト問題に対するこの重要なバリエーションを考察し,少数のサンプルのみのラベルを取得して2つのサンプルテストを行う問題とする。
まず、ラベルの後方確率をモデル化するために一様にラベル付けされたサンプルを用いて分類器を訓練し、次に、最大後方確率を持つ両方のクラスからのサンプルのラベルを問合せするために'emph{bimodal query}と呼ばれる革新的なクエリスキームを用いて、古典的なFriedman-Rafsky (FR) の2サンプルテストを行う。
理論的解析により,二モーダルクエリは適切な条件下でのFRテストに最適であり,3段階のフレームワークがタイプIエラーを制御することがわかった。
合成、ベンチマーク、アプリケーション固有のデータセットで実施された大規模な実験により、3段階のフレームワークは、Type Iエラーを制御しながら、均一なクエリと同一数のラベルによる確実性ベースのクエリよりもType IIエラーを減らした。
関連論文リスト
- General Frameworks for Conditional Two-Sample Testing [3.3317825075368908]
本研究では, 条件付き2サンプル検定の問題点について検討し, 条件付き2サンプル検定の問題点について考察した。
この問題は、ドメイン適応やアルゴリズムフェアネスなど、様々な応用で一般的に発生する。
本稿では,その妥当性と能力について,分布の特定のクラスを暗黙的に,あるいは明示的にターゲットとする2つの一般的なフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-10-22T02:27:32Z) - Dual-Label Learning With Irregularly Present Labels [14.817794592309637]
本研究は,2ラベル学習に焦点をあて,新たなトレーニングおよび推論フレームワークであるデュアルラベル学習(DLL)を提案する。
提案手法は,F1スコアやMAPEの10%向上により,ベースライン手法よりも一貫した予測を行う。
また,ラベルの欠落率を60%に抑えることで,ラベルの欠落率を10%に抑えることができた。
論文 参考訳(メタデータ) (2024-10-18T11:07:26Z) - Appeal: Allow Mislabeled Samples the Chance to be Rectified in Partial Label Learning [55.4510979153023]
部分ラベル学習(PLL)では、各インスタンスは候補ラベルのセットに関連付けられ、そのうち1つだけが接地真実である。
誤記されたサンプルの「アペアル」を支援するため,最初の魅力に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-18T09:09:52Z) - Deep anytime-valid hypothesis testing [29.273915933729057]
非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。
テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。
合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
論文 参考訳(メタデータ) (2023-10-30T09:46:19Z) - Bootstrapped Edge Count Tests for Nonparametric Two-Sample Inference
Under Heterogeneity [5.8010446129208155]
両試料間の差異を正確に検出する新しい非パラメトリック試験法を開発した。
オンラインゲームにおけるユーザ行動検出のための総合シミュレーション研究と応用により,提案試験の非漸近性能が向上したことを示す。
論文 参考訳(メタデータ) (2023-04-26T22:25:44Z) - Active Sequential Two-Sample Testing [18.99517340397671]
サンプル測定が安価に利用できる新しいシナリオでは,この2サンプルテストの問題を考慮する。
我々は,emphactiveNIST-sampleテストフレームワークを考案し,逐次クエリだけでなく,emphactivelyクエリも考案した。
実際に、我々はフレームワークのインスタンス化を導入し、いくつかの実験を用いて評価する。
論文 参考訳(メタデータ) (2023-01-30T02:23:49Z) - Multi-Label Quantification [78.83284164605473]
定量化とは、教師なしデータサンプルにおいて、興味あるクラスの相対周波数の予測子を生成する教師付き学習課題である。
本研究では,その相対頻度をより正確に予測するために,興味あるクラス間の依存関係を活用しようとするクラス有病率値の推定手法を提案する。
論文 参考訳(メタデータ) (2022-11-15T11:29:59Z) - Label-Noise Learning with Intrinsically Long-Tailed Data [65.41318436799993]
本稿では,本質的な長期データを用いたラベルノイズ学習のための学習フレームワークを提案する。
具体的には, 2段階の2次元試料選択法(TABASCO)を提案する。
論文 参考訳(メタデータ) (2022-08-21T07:47:05Z) - Centrality and Consistency: Two-Stage Clean Samples Identification for
Learning with Instance-Dependent Noisy Labels [87.48541631675889]
本稿では,2段階のクリーンサンプル識別手法を提案する。
まず,クリーンサンプルの早期同定にクラスレベルの特徴クラスタリング手法を用いる。
次に, 基底真理クラス境界に近い残余のクリーンサンプルについて, 一貫性に基づく新しい分類法を提案する。
論文 参考訳(メタデータ) (2022-07-29T04:54:57Z) - Two-Sample Testing on Ranked Preference Data and the Role of Modeling
Assumptions [57.77347280992548]
本稿では,ペアワイズ比較データとランキングデータのための2サンプル試験を設計する。
私たちのテストでは、基本的に分布に関する仮定は必要ありません。
実世界のペアワイズ比較データに2サンプルテストを適用することで、人によって提供される評価とランキングは、実際は異なる分散である、と結論付ける。
論文 参考訳(メタデータ) (2020-06-21T20:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。