論文の概要: Selective Inference for Hierarchical Clustering
- arxiv url: http://arxiv.org/abs/2012.02936v1
- Date: Sat, 5 Dec 2020 03:03:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 12:02:09.606403
- Title: Selective Inference for Hierarchical Clustering
- Title(参考訳): 階層クラスタリングのための選択推論
- Authors: Lucy L. Gao, Jacob Bien and Daniela Witten
- Abstract要約: 本稿では,任意のクラスタリング法から得られた2つのクラスタ間の平均差をテストするための選択的推論手法を提案する。
提案手法は,データからNull仮説が生成されたという事実を考慮し,選択型Iエラー率を制御する。
- 参考スコア(独自算出の注目度): 2.3311605203774386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Testing for a difference in means between two groups is fundamental to
answering research questions across virtually every scientific area. Classical
tests control the Type I error rate when the groups are defined a priori.
However, when the groups are instead defined via a clustering algorithm, then
applying a classical test for a difference in means between the groups yields
an extremely inflated Type I error rate. Notably, this problem persists even if
two separate and independent data sets are used to define the groups and to
test for a difference in their means. To address this problem, in this paper,
we propose a selective inference approach to test for a difference in means
between two clusters obtained from any clustering method. Our procedure
controls the selective Type I error rate by accounting for the fact that the
null hypothesis was generated from the data. We describe how to efficiently
compute exact p-values for clusters obtained using agglomerative hierarchical
clustering with many commonly used linkages. We apply our method to simulated
data and to single-cell RNA-seq data.
- Abstract(参考訳): 2つのグループ間の手段の違いに対するテストは、事実上すべての科学領域にまたがる研究質問に答える上で基本です。
古典的なテストは、グループが優先順位を定義するときにタイプIエラー率を制御する。
しかし、群がクラスタリングアルゴリズムによって定義される場合、群間の平均差に対する古典的なテストを適用すると、非常に膨らんだタイプIエラー率が得られる。
特に、この問題は、2つの独立したデータセットがグループを定義し、その手段の違いをテストするために使われても持続する。
この問題に対処するため,本論文では,任意のクラスタリング法から得られた2つのクラスタ間の手段の差をテストするための選択的推論手法を提案する。
提案手法は,データからNull仮説が生成されたという事実を考慮し,選択型Iエラー率を制御する。
本稿では,集合的階層クラスタリングを用いて得られたクラスタの正確なp値の計算方法を述べる。
本手法はシミュレーションデータおよび単細胞rna-seqデータに適用する。
関連論文リスト
- Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - A Computational Theory and Semi-Supervised Algorithm for Clustering [0.0]
半教師付きクラスタリングアルゴリズムを提案する。
クラスタリング法のカーネルは、Mohammadの異常検出アルゴリズムである。
結果は、合成および実世界のデータセットで示される。
論文 参考訳(メタデータ) (2023-06-12T09:15:58Z) - Leveraging Structure for Improved Classification of Grouped Biased Data [8.121462458089143]
データポイントが自然にグループ化されるアプリケーションに対する半教師付きバイナリ分類を検討する。
我々は、この構造を明示的に活用し、最適、グループ対応、確率出力の分類器を学習する半教師付きアルゴリズムを導出する。
論文 参考訳(メタデータ) (2022-12-07T15:18:21Z) - Confident Clustering via PCA Compression Ratio and Its Application to
Single-cell RNA-seq Analysis [4.511561231517167]
我々は,境界データポイントの影響を小さくするために,信頼度の高いクラスタリング手法を開発した。
本アルゴリズムは単一セルRNA-seqデータを用いて検証する。
単一セル解析における従来のクラスタリング法とは異なり、信頼性クラスタリングはパラメータの異なる選択下で高い安定性を示す。
論文 参考訳(メタデータ) (2022-05-19T20:46:49Z) - Selective inference for k-means clustering [0.0]
k平均クラスタリングを用いて得られた一対のクラスタ間の差分に対する選択型I誤差を制御する有限サンプルp値を提案する。
提案手法をシミュレーションや手書き桁データ,シングルセルRNAシークエンシングデータに適用する。
論文 参考訳(メタデータ) (2022-03-29T06:28:12Z) - Optimal Clustering with Bandit Feedback [57.672609011609886]
本稿では,バンディットフィードバックを用いたオンラインクラスタリングの問題点について考察する。
これは、NPハード重み付きクラスタリング問題をサブルーチンとして解決する必要性を回避するための、シーケンシャルなテストのための新しい停止規則を含む。
合成および実世界のデータセットの広範なシミュレーションを通して、BOCの性能は下界と一致し、非適応的ベースラインアルゴリズムよりも大幅に優れることを示す。
論文 参考訳(メタデータ) (2022-02-09T06:05:05Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - Selecting the number of clusters, clustering models, and algorithms. A
unifying approach based on the quadratic discriminant score [0.5330240017302619]
本稿では,多数のクラスタリングソリューションの中から選択可能な選択規則を提案する。
提案手法は,他の最先端手法と比較できない分割を比較できるという特徴的利点を有する。
論文 参考訳(メタデータ) (2021-11-03T15:38:58Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Selective Inference for Latent Block Models [50.83356836818667]
本研究では,潜在ブロックモデルに対する選択的推論法を提案する。
我々は,潜在ブロックモデルの行と列クラスタのメンバシップの集合に対する統計的テストを構築した。
提案された正確で近似されたテストは、選択バイアスを考慮していない単純なテストと比較して効果的に機能する。
論文 参考訳(メタデータ) (2020-05-27T10:44:19Z) - Optimal Clustering from Noisy Binary Feedback [75.17453757892152]
本稿では,二元的ユーザフィードバックから一組のアイテムをクラスタリングする問題について検討する。
最小クラスタ回復誤差率のアルゴリズムを考案する。
適応選択のために,情報理論的誤差下界の導出にインスパイアされたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2019-10-14T09:18:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。