論文の概要: Two-cluster test
- arxiv url: http://arxiv.org/abs/2507.08382v2
- Date: Mon, 14 Jul 2025 06:58:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 12:29:47.614856
- Title: Two-cluster test
- Title(参考訳): two‐cluster test
- Authors: Xinying Liu, Lianyu Hu, Mudi Jiang, Simeng Zhang, Jun Lou, Zengyou He,
- Abstract要約: 2クラスターテスト問題を導入し、従来の2サンプルテストとは全く異なる重要なテスト問題であると主張している。
合成データと実データの両方の実験により、提案したテストはType-Iエラー率を大幅に削減できることが示された。
さらに重要なことは、ツリーベースの解釈可能なクラスタリングと意味に基づく階層的クラスタリングにおいて、このような2クラスタテストの実践的利用がさらに検証されていることである。
- 参考スコア(独自算出の注目度): 1.871954330708119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cluster analysis is a fundamental research issue in statistics and machine learning. In many modern clustering methods, we need to determine whether two subsets of samples come from the same cluster. Since these subsets are usually generated by certain clustering procedures, the deployment of classic two-sample tests in this context would yield extremely smaller p-values, leading to inflated Type-I error rate. To overcome this bias, we formally introduce the two-cluster test issue and argue that it is a totally different significance testing issue from conventional two-sample test. Meanwhile, we present a new method based on the boundary points between two subsets to derive an analytical p-value for the purpose of significance quantification. Experiments on both synthetic and real data sets show that the proposed test is able to significantly reduce the Type-I error rate, in comparison with several classic two-sample testing methods. More importantly, the practical usage of such two-cluster test is further verified through its applications in tree-based interpretable clustering and significance-based hierarchical clustering.
- Abstract(参考訳): クラスタ分析は統計学と機械学習の基本的な研究課題である。
多くの現代的なクラスタリング手法では、サンプルの2つのサブセットが同じクラスタから来ているかどうかを判断する必要がある。
これらのサブセットは通常、特定のクラスタリング手順によって生成されるため、この文脈における古典的な2サンプルテストの展開は、非常に小さなp値をもたらし、インフレーションされたType-Iエラー率をもたらす。
このバイアスを克服するため、我々は正式に2クラスタテスト問題を導入し、従来の2サンプルテストとは全く異なるテスト問題であると主張している。
一方,2つの部分集合の境界点に基づく新しい手法を提案する。
合成データと実データの両方の実験により,提案手法は古典的な2サンプル試験法と比較して,Type-Iエラー率を大幅に低減できることが示された。
さらに重要なことは、ツリーベースの解釈可能なクラスタリングと意味に基づく階層的クラスタリングにおいて、このような2クラスタテストの実践的利用がさらに検証されていることである。
関連論文リスト
- Statistical Verification of Linear Classifiers [76.95660509846216]
本研究では,2つの試料間の線形分離性の概念に密接に関連する均一性試験を提案する。
本研究では,2次元試料に適用した場合に,テストのEmphp値の上限値の設定に焦点をあてる。
論文 参考訳(メタデータ) (2025-01-24T11:56:45Z) - Machine Learning for Two-Sample Testing under Right-Censored Data: A Simulation Study [0.0]
本研究は,2サンプル検定における機械学習(ML)手法の有効性を評価することを目的とする。
この研究は、計18の2サンプル検定法を右集束観察でカバーしている。
直感的な観察で2サンプル問題をテストするには、提案された2サンプルメソッド(スクリプト、データセット、モデル)をGitHubとHugging Faceで使用することができる。
論文 参考訳(メタデータ) (2024-09-12T16:38:20Z) - GCC: Generative Calibration Clustering [55.44944397168619]
本稿では,特徴学習と拡張をクラスタリングに組み込む新しいGCC法を提案する。
まず,実検体と実検体間の固有関係を識別する識別的特徴アライメント機構を開発する。
第二に、より信頼性の高いクラスタ割り当てを生成するための自己教師付きメトリック学習を設計する。
論文 参考訳(メタデータ) (2024-04-14T01:51:11Z) - Deep anytime-valid hypothesis testing [29.273915933729057]
非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。
テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。
合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
論文 参考訳(メタデータ) (2023-10-30T09:46:19Z) - Bootstrapped Edge Count Tests for Nonparametric Two-Sample Inference
Under Heterogeneity [5.8010446129208155]
両試料間の差異を正確に検出する新しい非パラメトリック試験法を開発した。
オンラインゲームにおけるユーザ行動検出のための総合シミュレーション研究と応用により,提案試験の非漸近性能が向上したことを示す。
論文 参考訳(メタデータ) (2023-04-26T22:25:44Z) - Parametric Classification for Generalized Category Discovery: A Baseline
Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。
パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。
エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:47:11Z) - Statistical and Computational Phase Transitions in Group Testing [73.55361918807883]
本研究の目的は、希少な疾患を患っているk人の集団を同定することである。
個々人のテストを割り当てるための2つの異なる単純なランダムな手順を考える。
論文 参考訳(メタデータ) (2022-06-15T16:38:50Z) - Selective inference for k-means clustering [0.0]
k平均クラスタリングを用いて得られた一対のクラスタ間の差分に対する選択型I誤差を制御する有限サンプルp値を提案する。
提案手法をシミュレーションや手書き桁データ,シングルセルRNAシークエンシングデータに適用する。
論文 参考訳(メタデータ) (2022-03-29T06:28:12Z) - Selective Inference for Hierarchical Clustering [2.3311605203774386]
本稿では,任意のクラスタリング法から得られた2つのクラスタ間の平均差をテストするための選択的推論手法を提案する。
提案手法は,データからNull仮説が生成されたという事実を考慮し,選択型Iエラー率を制御する。
論文 参考訳(メタデータ) (2020-12-05T03:03:19Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。