論文の概要: Revisit Non-parametric Two-sample Testing as a Semi-supervised Learning Problem
- arxiv url: http://arxiv.org/abs/2412.00613v1
- Date: Sat, 30 Nov 2024 23:23:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 21:11:22.066684
- Title: Revisit Non-parametric Two-sample Testing as a Semi-supervised Learning Problem
- Title(参考訳): 半教師付き学習問題としての非パラメトリック2サンプルテストの再検討
- Authors: Xunye Tian, Liuhua Peng, Zhijian Zhou, Mingming Gong, Feng Liu,
- Abstract要約: 非教師付き2サンプルテストのためのSSLベースのTwoSample Test(SSL-C2ST)フレームワークを紹介する。
広範な実験と理論解析により、SSL-C2STはラベルのないデータを効果的に活用することで従来のC2STより優れていることが示された。
- 参考スコア(独自算出の注目度): 37.55998723110691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning effective data representations is crucial in answering if two samples X and Y are from the same distribution (a.k.a. the non-parametric two-sample testing problem), which can be categorized into: i) learning discriminative representations (DRs) that distinguish between two samples in a supervised-learning paradigm, and ii) learning inherent representations (IRs) focusing on data's inherent features in an unsupervised-learning paradigm. However, both paradigms have issues: learning DRs reduces the data points available for the two-sample testing phase, and learning purely IRs misses discriminative cues. To mitigate both issues, we propose a novel perspective to consider non-parametric two-sample testing as a semi-supervised learning (SSL) problem, introducing the SSL-based Classifier Two-Sample Test (SSL-C2ST) framework. While a straightforward implementation of SSL-C2ST might directly use existing state-of-the-art (SOTA) SSL methods to train a classifier with labeled data (with sample indexes X or Y) and unlabeled data (the remaining ones in the two samples), conventional two-sample testing data often exhibits substantial overlap between samples and violates SSL methods' assumptions, resulting in low test power. Therefore, we propose a two-step approach: first, learn IRs using all data, then fine-tune IRs with only labelled data to learn DRs, which can both utilize information from whole dataset and adapt the discriminative power to the given data. Extensive experiments and theoretical analysis demonstrate that SSL-C2ST outperforms traditional C2ST by effectively leveraging unlabeled data. We also offer a stronger empirically designed test achieving the SOTA performance in many two-sample testing datasets.
- Abstract(参考訳): 効果的なデータ表現の学習は、2つのサンプル X と Y が同じ分布(例えば、非パラメトリックな2サンプルテスト問題)から来ている場合、以下に分類できる。
一 指導的学習パラダイムにおける2つのサンプルを区別する識別的表現(DR)の学習及び
二 教師なし学習パラダイムにおいて、データ固有の特徴に焦点を当てた固有表現(IR)を学習すること。
しかし、両方のパラダイムには問題がある: DRの学習は2サンプルテストフェーズで利用可能なデータポイントを減らす。
両問題を緩和するために,非パラメトリックな2サンプルテストを半教師付き学習(SSL)問題として考慮し,SSLベースの2サンプルテスト(SSL-C2ST)フレームワークを導入することを提案する。
SSL-C2STの簡単な実装では、既存の最先端(SOTA)のSSLメソッドを直接使用してラベル付きデータ(サンプルインデックスXまたはY)とラベルなしデータ(2つのサンプルに残るもの)で分類器を訓練するが、従来の2サンプルテストデータはサンプル間でかなりの重複を示し、SSLメソッドの仮定に違反しているため、テスト能力は低い。
そこで本研究では、まず、すべてのデータを用いてIRを学習し、次にラベル付きデータのみを用いて微調整IRを微調整してDRを学習し、データセット全体の情報を活用し、その識別力を与えられたデータに適用できる2段階のアプローチを提案する。
広範な実験と理論解析により、SSL-C2STはラベルのないデータを効果的に活用することで従来のC2STより優れていることが示された。
また、多くの2サンプルテストデータセットにおいて、SOTAのパフォーマンスを達成するための実験的に設計されたテストも提供します。
関連論文リスト
- RL-Selector: Reinforcement Learning-Guided Data Selection via Redundancy Assessment [10.284993431741377]
サンプル間の関係に基づいてサンプル冗長性を定量化する,エプシロン・サンプル被覆の概念を導入する。
我々は、強化学習プロセスとしてデータ選択を再構成し、RLセレクタを提案する。
我々の手法は、既存の最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-06-26T06:28:56Z) - An Analysis of LLM Fine-Tuning and Few-Shot Learning for Flaky Test Detection and Classification [1.9336815376402723]
燃えるようなテストは実行中に非決定的な振る舞いを示す。
テストの振る舞いの多様性のため、燃えるようなテストの検出と分類は難しい。
論文 参考訳(メタデータ) (2025-02-04T20:54:51Z) - Data Augmentation for Sparse Multidimensional Learning Performance Data Using Generative AI [17.242331892899543]
学習パフォーマンスデータは、適応学習における正しい解答や問題解決の試みを記述している。
学習性能データは、適応的なアイテム選択のため、ほとんどの実世界のアプリケーションでは、非常にスパースな(80%(sim)90%の欠落)傾向にある。
本稿では,学習者のデータの分散性に対処するために,学習者のデータを拡張するための体系的フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T00:25:07Z) - A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification [51.35500308126506]
自己教師付き学習(SSL)は、データ自体が監視を提供する機械学習アプローチであり、外部ラベルの必要性を排除している。
SSLの分類に基づく評価プロトコルがどのように相関し、異なるデータセットのダウンストリーム性能を予測するかを検討する。
論文 参考訳(メタデータ) (2024-07-16T23:17:36Z) - The Trade-off between Universality and Label Efficiency of
Representations from Contrastive Learning [32.15608637930748]
2つのデシダラタの間にはトレードオフがあることを示し、同時に両方を達成できない可能性があることを示す。
我々は、理論データモデルを用いて分析を行い、より多様な事前学習データにより、異なるタスクに対してより多様な機能が得られる一方で、タスク固有の機能に重点を置いていないことを示す。
論文 参考訳(メタデータ) (2023-02-28T22:14:33Z) - Forgetful Active Learning with Switch Events: Efficient Sampling for
Out-of-Distribution Data [13.800680101300756]
実際には、完全に訓練されたニューラルネットワークは、アウト・オブ・ディストリビューション(OOD)入力とランダムに相互作用する。
本稿では,スイッチイベント(FALSE)による忘れがちなアクティブラーニングについて紹介する。
270以上の実験で最大4.5%の精度向上が報告された。
論文 参考訳(メタデータ) (2023-01-12T16:03:14Z) - MMD-B-Fair: Learning Fair Representations with Statistical Testing [4.669892068997491]
本稿では,カーネル2サンプルテストによるデータの公平な表現を学習するためのMDD-B-Fairを提案する。
対象の属性に関する情報を保存しながら, 最大平均不一致(MMD)テストでは, 異なるセンシティブなグループの表現を区別できないという, データのニューラルな特徴を見出した。
論文 参考訳(メタデータ) (2022-11-15T05:25:38Z) - Collaborative Intelligence Orchestration: Inconsistency-Based Fusion of
Semi-Supervised Learning and Active Learning [60.26659373318915]
アクティブラーニング(AL)と半教師付きラーニング(SSL)は2つの効果があるが、しばしば孤立している。
本稿では、SSL-ALの潜在的な優位性をさらに調査するために、革新的な一貫性に基づく仮想aDvErialアルゴリズムを提案する。
2つの実世界のケーススタディは、提案したデータサンプリングアルゴリズムの適用と展開の実践的な産業価値を可視化する。
論文 参考訳(メタデータ) (2022-06-07T13:28:43Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Self-supervised Learning is More Robust to Dataset Imbalance [65.84339596595383]
データセット不均衡下での自己教師型学習について検討する。
既製の自己教師型表現は、教師型表現よりもクラス不均衡に対してすでに堅牢である。
我々は、不均衡なデータセット上でSSL表現品質を一貫して改善する、再重み付け正規化手法を考案した。
論文 参考訳(メタデータ) (2021-10-11T06:29:56Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z) - Rethinking Re-Sampling in Imbalanced Semi-Supervised Learning [26.069534478556527]
Semi-Supervised Learning (SSL)はラベル付きデータが不足している場合にラベル付きデータを利用する強力な能力を示している。
ほとんどのSSLアルゴリズムは、クラスディストリビューションがトレーニングセットとテストセットの両方でバランスが取れているという仮定の下で動作します。
本研究では,クラス不均衡データに対するSSLの問題について考察する。
論文 参考訳(メタデータ) (2021-06-01T03:58:18Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Knowledge Distillation and Data Selection for Semi-Supervised Learning
in CTC Acoustic Models [9.496916045581736]
半教師付き学習 (SSL) は, 音声認識システムの精度を向上させるために, ラベルのないデータを活用することを目的とした研究の活発な領域である。
本研究の目的は, 不正データのプールからサンプルを選択する際に, 適切な基準が重要であることを確かめることである。
我々は、この疑問に答え、異なるサンプリング戦略の効果を定量化するために、異なるデータ選択方法の実証的研究を行う。
論文 参考訳(メタデータ) (2020-08-10T07:00:08Z) - Multi-Task Curriculum Framework for Open-Set Semi-Supervised Learning [54.85397562961903]
ラベル付きデータに制限がある場合に、ラベルなしデータを利用して強力なモデルをトレーニングする半教師付き学習(SSL)が提案されている。
我々は、Open-set SSLと呼ばれるより複雑な新しいシナリオに対処する。
提案手法は,OOD試料の効果を除去し,最先端の結果を得る。
論文 参考訳(メタデータ) (2020-07-22T10:33:55Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - DiVA: Diverse Visual Feature Aggregation for Deep Metric Learning [83.48587570246231]
視覚的類似性は多くのコンピュータビジョンアプリケーションにおいて重要な役割を果たす。
ディープ・メトリック・ラーニング(DML)は、そのような類似性を学ぶための強力なフレームワークである。
我々は,概念的に異なるデータ関係を対象とする複数の補完学習タスクを提案し,研究する。
我々は、訓練信号を集約する単一モデルを学び、その結果、強力な一般化と最先端のパフォーマンスが得られる。
論文 参考訳(メタデータ) (2020-04-28T12:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。