論文の概要: Statistical Testing Framework for Clustering Pipelines by Selective Inference
- arxiv url: http://arxiv.org/abs/2603.18413v1
- Date: Thu, 19 Mar 2026 02:20:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.914582
- Title: Statistical Testing Framework for Clustering Pipelines by Selective Inference
- Title(参考訳): 選択的推論によるクラスタリングパイプラインの統計的テストフレームワーク
- Authors: Yugo Miyata, Tomohiro Shiraishi, Shunichi Nishino, Ichiro Takeuchi,
- Abstract要約: データ分析パイプラインを用いて得られたクラスタリング結果の意義を評価するための新しい統計的テストフレームワークを提案する。
提案試験は,任意の名目レベルでI型エラー率を制御し,その妥当性と有効性を示す。
- 参考スコア(独自算出の注目度): 9.309321925569241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A data analysis pipeline is a structured sequence of steps that transforms raw data into meaningful insights by integrating multiple analysis algorithms.In many practical applications, analytical findings are obtained only after data pass through several data-dependent procedures within such pipelines.In this study, we address the problem of quantifying the statistical reliability of results produced by data analysis pipelines.As a proof of concept, we focus on clustering pipelines that identify cluster structures from complex and heterogeneous data through procedures such as outlier detection, feature selection, and clustering.We propose a novel statistical testing framework to assess the significance of clustering results obtained through these pipelines.Our framework, based on selective inference, enables the systematic construction of valid statistical tests for clustering pipelines composed of predefined components.We prove that the proposed test controls the type I error rate at any nominal level and demonstrate its validity and effectiveness through experiments on synthetic and real datasets.
- Abstract(参考訳): 本稿では,データ解析パイプラインが生成する結果の統計的信頼性を定量的に評価する問題に対処するため,データ解析パイプラインを外乱検出,特徴選択,クラスタリングなどの手順により,複雑なデータからクラスタ構造を識別するクラスタリングパイプラインに着目し,これらのパイプラインによるクラスタリング結果の意義を評価するための新しい統計的テストフレームワークを提案する。
関連論文リスト
- Fiducial Matching: Differentially Private Inference for Categorical Data [0.0]
推測統計的推論は、いまだに微分プライベート(DP)設定における調査のオープン領域である。
本稿では,シミュレーションに基づくマッチング手法を提案する。
我々は,全国調査に共通する分類(ノミナル)データの分析に焦点をあてる。
論文 参考訳(メタデータ) (2025-07-15T21:56:15Z) - Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。
本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:04:39Z) - An Agglomerative Clustering of Simulation Output Distributions Using Regularized Wasserstein Distance [0.0]
本稿では,正規化ワッサーシュタイン距離をクラスタシミュレーション出力に利用した新しいクラスタリングアルゴリズムを提案する。
このフレームワークには、異常検出、事前最適化、オンライン監視など、いくつかの重要なユースケースがある。
論文 参考訳(メタデータ) (2024-07-16T18:07:32Z) - Statistical Test for Feature Selection Pipelines by Selective Inference [13.628959580589665]
データ分析パイプラインは、生データを意味のある洞察に変換するステップの構造化されたシーケンスである。
本稿では,特徴選択問題におけるデータ解析パイプラインの重要性を評価するための新しい統計的テストを提案する。
論文 参考訳(メタデータ) (2024-06-27T05:30:08Z) - Physics-informed and Unsupervised Riemannian Domain Adaptation for Machine Learning on Heterogeneous EEG Datasets [53.367212596352324]
脳波信号物理を利用した教師なし手法を提案する。
脳波チャンネルをフィールド、ソースフリーなドメイン適応を用いて固定位置にマッピングする。
提案手法は脳-コンピュータインタフェース(BCI)タスクおよび潜在的なバイオマーカー応用におけるロバストな性能を示す。
論文 参考訳(メタデータ) (2024-03-07T16:17:33Z) - Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。
特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。
ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文 参考訳(メタデータ) (2022-10-04T15:22:39Z) - Data-Driven Representations for Testing Independence: Modeling, Analysis
and Connection with Mutual Information Estimation [3.9023554886892433]
この研究は、データ駆動パーティションの設計から、2つの連続および有限次元のランダム変数の独立性をテストする。
オラクルテストの十分な統計量の近似は、データ駆動パーティションを設計するための学習基準を提供する。
いくつかの実験分析は、データ駆動表現を使用しないいくつかの戦略と比較して、テスト独立性に対する我々のスキームの利点に関する証拠を提供する。
論文 参考訳(メタデータ) (2021-10-27T02:06:05Z) - CDEvalSumm: An Empirical Study of Cross-Dataset Evaluation for Neural
Summarization Systems [121.78477833009671]
データセット間設定下での様々な要約モデルの性能について検討する。
異なるドメインの5つのデータセットに対する11の代表的な要約システムに関する包括的な研究は、モデルアーキテクチャと生成方法の影響を明らかにしている。
論文 参考訳(メタデータ) (2020-10-11T02:19:15Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。