論文の概要: A Unified Data Representation Learning for Non-parametric Two-sample Testing
- arxiv url: http://arxiv.org/abs/2412.00613v2
- Date: Thu, 08 May 2025 11:08:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 15:15:32.332013
- Title: A Unified Data Representation Learning for Non-parametric Two-sample Testing
- Title(参考訳): 非パラメトリック2サンプルテストのための統一データ表現学習
- Authors: Xunye Tian, Liuhua Peng, Zhijian Zhou, Mingming Gong, Arthur Gretton, Feng Liu,
- Abstract要約: 本稿では,表現学習型2サンプルテスト(RL-TST)フレームワークを提案する。
RL-TSTはまず、データセット全体に対して純粋に自己教師付き表現学習を行う。
識別モデルはこれらの赤外線で訓練され、識別表現(DR)を学習する。
- 参考スコア(独自算出の注目度): 50.27067977793069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning effective data representations has been crucial in non-parametric two-sample testing. Common approaches will first split data into training and test sets and then learn data representations purely on the training set. However, recent theoretical studies have shown that, as long as the sample indexes are not used during the learning process, the whole data can be used to learn data representations, meanwhile ensuring control of Type-I errors. The above fact motivates us to use the test set (but without sample indexes) to facilitate the data representation learning in the testing. To this end, we propose a representation-learning two-sample testing (RL-TST) framework. RL-TST first performs purely self-supervised representation learning on the entire dataset to capture inherent representations (IRs) that reflect the underlying data manifold. A discriminative model is then trained on these IRs to learn discriminative representations (DRs), enabling the framework to leverage both the rich structural information from IRs and the discriminative power of DRs. Extensive experiments demonstrate that RL-TST outperforms representative approaches by simultaneously using data manifold information in the test set and enhancing test power via finding the DRs with the training set.
- Abstract(参考訳): 効果的なデータ表現の学習は、非パラメトリックな2サンプルテストにおいて重要である。
一般的なアプローチでは、まずデータをトレーニングとテストセットに分割し、トレーニングセット上でデータ表現を純粋に学習する。
しかし、最近の理論的研究により、サンプルインデックスが学習プロセスで使われていない限り、データ全体をデータ表現の学習に利用でき、しかもType-Iエラーの制御を確実にすることができることが示されている。
上記の事実は、テストにおけるデータ表現学習を容易にするために(サンプルインデックスなしで)テストセットを使用することを動機付けています。
そこで本研究では,表現学習型2サンプルテスト(RL-TST)フレームワークを提案する。
RL-TSTは、まずデータセット全体に対して純粋に自己教師付き表現学習を行い、基礎となるデータ多様体を反映する固有の表現(IR)をキャプチャする。
識別モデルは、これらのIRで訓練され、識別表現(DR)を学習し、フレームワークは、IRからの豊富な構造情報とDRの識別力の両方を活用することができる。
総合実験により,RL-TSTは,テストセット内のデータ多様体情報を同時に利用し,トレーニングセットでDRを見つけることによってテストパワーを向上させることにより,代表的アプローチよりも優れることが示された。
関連論文リスト
- An Analysis of LLM Fine-Tuning and Few-Shot Learning for Flaky Test Detection and Classification [1.9336815376402723]
燃えるようなテストは実行中に非決定的な振る舞いを示す。
テストの振る舞いの多様性のため、燃えるようなテストの検出と分類は難しい。
論文 参考訳(メタデータ) (2025-02-04T20:54:51Z) - A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification [51.35500308126506]
自己教師付き学習(SSL)は、データ自体が監視を提供する機械学習アプローチであり、外部ラベルの必要性を排除している。
SSLの分類に基づく評価プロトコルがどのように相関し、異なるデータセットのダウンストリーム性能を予測するかを検討する。
論文 参考訳(メタデータ) (2024-07-16T23:17:36Z) - Collaborative Intelligence Orchestration: Inconsistency-Based Fusion of
Semi-Supervised Learning and Active Learning [60.26659373318915]
アクティブラーニング(AL)と半教師付きラーニング(SSL)は2つの効果があるが、しばしば孤立している。
本稿では、SSL-ALの潜在的な優位性をさらに調査するために、革新的な一貫性に基づく仮想aDvErialアルゴリズムを提案する。
2つの実世界のケーススタディは、提案したデータサンプリングアルゴリズムの適用と展開の実践的な産業価値を可視化する。
論文 参考訳(メタデータ) (2022-06-07T13:28:43Z) - Self-supervised Learning is More Robust to Dataset Imbalance [65.84339596595383]
データセット不均衡下での自己教師型学習について検討する。
既製の自己教師型表現は、教師型表現よりもクラス不均衡に対してすでに堅牢である。
我々は、不均衡なデータセット上でSSL表現品質を一貫して改善する、再重み付け正規化手法を考案した。
論文 参考訳(メタデータ) (2021-10-11T06:29:56Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z) - Rethinking Re-Sampling in Imbalanced Semi-Supervised Learning [26.069534478556527]
Semi-Supervised Learning (SSL)はラベル付きデータが不足している場合にラベル付きデータを利用する強力な能力を示している。
ほとんどのSSLアルゴリズムは、クラスディストリビューションがトレーニングセットとテストセットの両方でバランスが取れているという仮定の下で動作します。
本研究では,クラス不均衡データに対するSSLの問題について考察する。
論文 参考訳(メタデータ) (2021-06-01T03:58:18Z) - Knowledge Distillation and Data Selection for Semi-Supervised Learning
in CTC Acoustic Models [9.496916045581736]
半教師付き学習 (SSL) は, 音声認識システムの精度を向上させるために, ラベルのないデータを活用することを目的とした研究の活発な領域である。
本研究の目的は, 不正データのプールからサンプルを選択する際に, 適切な基準が重要であることを確かめることである。
我々は、この疑問に答え、異なるサンプリング戦略の効果を定量化するために、異なるデータ選択方法の実証的研究を行う。
論文 参考訳(メタデータ) (2020-08-10T07:00:08Z) - Multi-Task Curriculum Framework for Open-Set Semi-Supervised Learning [54.85397562961903]
ラベル付きデータに制限がある場合に、ラベルなしデータを利用して強力なモデルをトレーニングする半教師付き学習(SSL)が提案されている。
我々は、Open-set SSLと呼ばれるより複雑な新しいシナリオに対処する。
提案手法は,OOD試料の効果を除去し,最先端の結果を得る。
論文 参考訳(メタデータ) (2020-07-22T10:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。