論文の概要: Statistical Test for Data Analysis Pipeline by Selective Inference
- arxiv url: http://arxiv.org/abs/2406.18902v1
- Date: Thu, 27 Jun 2024 05:30:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 15:06:48.888393
- Title: Statistical Test for Data Analysis Pipeline by Selective Inference
- Title(参考訳): 選択的推論によるデータ解析パイプラインの統計的検証
- Authors: Tomohiro Shiraishi, Tatsuya Matsukawa, Shuichi Nishino, Ichiro Takeuchi,
- Abstract要約: データ分析パイプラインは、生データを意味のある洞察に変換する処理ステップの構造化シーケンスである。
本稿では,データ解析パイプラインの統計的意義を評価するための新しい統計テストを提案する。
- 参考スコア(独自算出の注目度): 13.628959580589665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A data analysis pipeline is a structured sequence of processing steps that transforms raw data into meaningful insights by effectively integrating various analysis algorithms. In this paper, we propose a novel statistical test designed to assess the statistical significance of data analysis pipelines. Our approach allows for the systematic development of valid statistical tests applicable to any data analysis pipeline configuration composed of a set of data analysis components. We have developed this framework by adapting selective inference, which has gained recent attention as a new statistical inference technique for data-driven hypotheses. The proposed statistical test is theoretically designed to control the type I error at the desired significance level in finite samples. As examples, we consider a class of pipelines composed of three missing value imputation algorithms, three outlier detection algorithms, and three feature selection algorithms. We confirm the validity of our statistical test through experiments with both synthetic and real data for this class of data analysis pipelines. Additionally, we present an implementation framework that facilitates testing across any configuration of data analysis pipelines in this class without extra implementation costs.
- Abstract(参考訳): データ分析パイプラインは、さまざまな分析アルゴリズムを効果的に統合することにより、生データを意味のある洞察に変換する処理ステップの構造的シーケンスである。
本稿では,データ解析パイプラインの統計的意義を評価するための新しい統計テストを提案する。
提案手法は,データ分析コンポーネントの集合からなる任意のデータ解析パイプライン構成に適用可能な,有効な統計的テストの体系的開発を可能にする。
我々は,データ駆動仮説の新しい統計的推論手法として近年注目されている選択推論を適用して,この枠組みを開発した。
提案した統計的テストは、有限標本における所望の重要度レベルでI型誤差を制御するために理論的に設計されている。
例えば、3つの欠落値計算アルゴリズム、3つの外乱検出アルゴリズム、3つの特徴選択アルゴリズムからなるパイプラインのクラスを考える。
我々は,このタイプのデータ分析パイプラインの合成データと実データの両方を用いた実験により,統計的検査の有効性を確認した。
さらに、このクラスのデータ分析パイプラインの構成をまたいだテストを容易にする実装フレームワークを、追加の実装コストなしで提供する。
関連論文リスト
- fastHDMI: Fast Mutual Information Estimation for High-Dimensional Data [2.9901605297536027]
我々は高次元データセットにおける効率的な変数スクリーニングのために設計されたPythonパッケージであるfastHDMIを紹介した。
この研究は3つの相互情報推定手法のニューロイメージング変数選択への応用を開拓した。
論文 参考訳(メタデータ) (2024-10-14T01:49:53Z) - Statistical Test for Auto Feature Engineering by Selective Inference [12.703556860454565]
オートフィーチャーエンジニアリング(AFE)は、実用的な機械学習パイプラインの開発において重要な役割を果たす。
選択推論というフレームワークをベースとした,AFEアルゴリズムによる特徴量生成のための新しい統計的テストを提案する。
提案試験では, 生成した特徴の統計的意義を$p$-valuesの形で定量化し, 誤検出のリスクを理論的に保証する。
論文 参考訳(メタデータ) (2024-10-13T12:26:51Z) - Detecting and Identifying Selection Structure in Sequential Data [53.24493902162797]
我々は,音楽のシーケンスなどの実践的な状況において,潜在目的に基づくデータポイントの選択的包摂が一般的である,と論じる。
選択構造はパラメトリックな仮定や介入実験なしで識別可能であることを示す。
また、他の種類の依存関係と同様に、選択構造を検知し、識別するための証明可能な正当性アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-29T20:56:34Z) - Globally-Optimal Greedy Experiment Selection for Active Sequential
Estimation [1.1530723302736279]
逐次的に収集したデータの実験を適応的に選択するアクティブシーケンシャル推定の問題について検討する。
目標は、より正確なモデル推定のための実験選択ルールを設計することである。
そこで本稿では,グリーディ実験の選択手法のクラスを提案し,最大可能性の統計的解析を行う。
論文 参考訳(メタデータ) (2024-02-13T17:09:29Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - Measuring Statistical Dependencies via Maximum Norm and Characteristic
Functions [0.0]
本稿では, 連接関数と積対角特性関数の差の最大ノルムに基づく統計的依存度尺度を提案する。
提案手法は、2つの異なる次元のランダムベクトル間の任意の統計的依存を検出することができる。
シミュレーションデータと実データの両方を用いて実験を行う。
論文 参考訳(メタデータ) (2022-08-16T20:24:31Z) - Statistical inference of travelers' route choice preferences with
system-level data [4.120057972557892]
本研究では,システムレベルのデータを用いて旅行者の実用機能を複数の属性で推定する手法を開発した。
合成データを用いた実験では、係数は一貫して回復され、仮説テストはどの属性が旅行者の経路選択の決定要因であるかを特定する信頼できる統計量であることが示されている。
この方法論は、新型コロナウイルスの感染拡大時に収集された実際のFresnoworldマルチソースデータを使用して、大規模に展開される。
論文 参考訳(メタデータ) (2022-04-23T00:38:32Z) - Differential privacy and robust statistics in high dimensions [49.50869296871643]
高次元Propose-Test-Release (HPTR) は指数的メカニズム、頑健な統計、Propose-Test-Release メカニズムという3つの重要なコンポーネントの上に構築されている。
本論文では,HPTRが複数のシナリオで最適サンプル複雑性をほぼ達成していることを示す。
論文 参考訳(メタデータ) (2021-11-12T06:36:40Z) - Online Active Model Selection for Pre-trained Classifiers [72.84853880948894]
我々は,任意のラウンドにおいて高い確率で最良のモデルをラベル付けし,出力する情報的サンプルを積極的に選択するオンライン選択的サンプリング手法を設計する。
我々のアルゴリズムは、敵とストリームの両方のオンライン予測タスクに利用できる。
論文 参考訳(メタデータ) (2020-10-19T19:53:15Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。