論文の概要: Revisit Non-parametric Two-sample Testing as a Semi-supervised Learning Problem
- arxiv url: http://arxiv.org/abs/2412.00613v1
- Date: Sat, 30 Nov 2024 23:23:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:50:24.988090
- Title: Revisit Non-parametric Two-sample Testing as a Semi-supervised Learning Problem
- Title(参考訳): 半教師付き学習問題としての非パラメトリック2サンプルテストの再検討
- Authors: Xunye Tian, Liuhua Peng, Zhijian Zhou, Mingming Gong, Feng Liu,
- Abstract要約: 非教師付き2サンプルテストのためのSSLベースのTwoSample Test(SSL-C2ST)フレームワークを紹介する。
広範な実験と理論解析により、SSL-C2STはラベルのないデータを効果的に活用することで従来のC2STより優れていることが示された。
- 参考スコア(独自算出の注目度): 37.55998723110691
- License:
- Abstract: Learning effective data representations is crucial in answering if two samples X and Y are from the same distribution (a.k.a. the non-parametric two-sample testing problem), which can be categorized into: i) learning discriminative representations (DRs) that distinguish between two samples in a supervised-learning paradigm, and ii) learning inherent representations (IRs) focusing on data's inherent features in an unsupervised-learning paradigm. However, both paradigms have issues: learning DRs reduces the data points available for the two-sample testing phase, and learning purely IRs misses discriminative cues. To mitigate both issues, we propose a novel perspective to consider non-parametric two-sample testing as a semi-supervised learning (SSL) problem, introducing the SSL-based Classifier Two-Sample Test (SSL-C2ST) framework. While a straightforward implementation of SSL-C2ST might directly use existing state-of-the-art (SOTA) SSL methods to train a classifier with labeled data (with sample indexes X or Y) and unlabeled data (the remaining ones in the two samples), conventional two-sample testing data often exhibits substantial overlap between samples and violates SSL methods' assumptions, resulting in low test power. Therefore, we propose a two-step approach: first, learn IRs using all data, then fine-tune IRs with only labelled data to learn DRs, which can both utilize information from whole dataset and adapt the discriminative power to the given data. Extensive experiments and theoretical analysis demonstrate that SSL-C2ST outperforms traditional C2ST by effectively leveraging unlabeled data. We also offer a stronger empirically designed test achieving the SOTA performance in many two-sample testing datasets.
- Abstract(参考訳): 効果的なデータ表現の学習は、2つのサンプル X と Y が同じ分布(例えば、非パラメトリックな2サンプルテスト問題)から来ている場合、以下に分類できる。
一 指導的学習パラダイムにおける2つのサンプルを区別する識別的表現(DR)の学習及び
二 教師なし学習パラダイムにおいて、データ固有の特徴に焦点を当てた固有表現(IR)を学習すること。
しかし、両方のパラダイムには問題がある: DRの学習は2サンプルテストフェーズで利用可能なデータポイントを減らす。
両問題を緩和するために,非パラメトリックな2サンプルテストを半教師付き学習(SSL)問題として考慮し,SSLベースの2サンプルテスト(SSL-C2ST)フレームワークを導入することを提案する。
SSL-C2STの簡単な実装では、既存の最先端(SOTA)のSSLメソッドを直接使用してラベル付きデータ(サンプルインデックスXまたはY)とラベルなしデータ(2つのサンプルに残るもの)で分類器を訓練するが、従来の2サンプルテストデータはサンプル間でかなりの重複を示し、SSLメソッドの仮定に違反しているため、テスト能力は低い。
そこで本研究では、まず、すべてのデータを用いてIRを学習し、次にラベル付きデータのみを用いて微調整IRを微調整してDRを学習し、データセット全体の情報を活用し、その識別力を与えられたデータに適用できる2段階のアプローチを提案する。
広範な実験と理論解析により、SSL-C2STはラベルのないデータを効果的に活用することで従来のC2STより優れていることが示された。
また、多くの2サンプルテストデータセットにおいて、SOTAのパフォーマンスを達成するための実験的に設計されたテストも提供します。
関連論文リスト
- A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification [51.35500308126506]
自己教師付き学習(SSL)は、データ自体が監視を提供する機械学習アプローチであり、外部ラベルの必要性を排除している。
SSLの分類に基づく評価プロトコルがどのように相関し、異なるデータセットのダウンストリーム性能を予測するかを検討する。
論文 参考訳(メタデータ) (2024-07-16T23:17:36Z) - Collaborative Intelligence Orchestration: Inconsistency-Based Fusion of
Semi-Supervised Learning and Active Learning [60.26659373318915]
アクティブラーニング(AL)と半教師付きラーニング(SSL)は2つの効果があるが、しばしば孤立している。
本稿では、SSL-ALの潜在的な優位性をさらに調査するために、革新的な一貫性に基づく仮想aDvErialアルゴリズムを提案する。
2つの実世界のケーススタディは、提案したデータサンプリングアルゴリズムの適用と展開の実践的な産業価値を可視化する。
論文 参考訳(メタデータ) (2022-06-07T13:28:43Z) - Self-supervised Learning is More Robust to Dataset Imbalance [65.84339596595383]
データセット不均衡下での自己教師型学習について検討する。
既製の自己教師型表現は、教師型表現よりもクラス不均衡に対してすでに堅牢である。
我々は、不均衡なデータセット上でSSL表現品質を一貫して改善する、再重み付け正規化手法を考案した。
論文 参考訳(メタデータ) (2021-10-11T06:29:56Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z) - Rethinking Re-Sampling in Imbalanced Semi-Supervised Learning [26.069534478556527]
Semi-Supervised Learning (SSL)はラベル付きデータが不足している場合にラベル付きデータを利用する強力な能力を示している。
ほとんどのSSLアルゴリズムは、クラスディストリビューションがトレーニングセットとテストセットの両方でバランスが取れているという仮定の下で動作します。
本研究では,クラス不均衡データに対するSSLの問題について考察する。
論文 参考訳(メタデータ) (2021-06-01T03:58:18Z) - Knowledge Distillation and Data Selection for Semi-Supervised Learning
in CTC Acoustic Models [9.496916045581736]
半教師付き学習 (SSL) は, 音声認識システムの精度を向上させるために, ラベルのないデータを活用することを目的とした研究の活発な領域である。
本研究の目的は, 不正データのプールからサンプルを選択する際に, 適切な基準が重要であることを確かめることである。
我々は、この疑問に答え、異なるサンプリング戦略の効果を定量化するために、異なるデータ選択方法の実証的研究を行う。
論文 参考訳(メタデータ) (2020-08-10T07:00:08Z) - Multi-Task Curriculum Framework for Open-Set Semi-Supervised Learning [54.85397562961903]
ラベル付きデータに制限がある場合に、ラベルなしデータを利用して強力なモデルをトレーニングする半教師付き学習(SSL)が提案されている。
我々は、Open-set SSLと呼ばれるより複雑な新しいシナリオに対処する。
提案手法は,OOD試料の効果を除去し,最先端の結果を得る。
論文 参考訳(メタデータ) (2020-07-22T10:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。