論文の概要: Statistical Test for Feature Selection Pipelines by Selective Inference
- arxiv url: http://arxiv.org/abs/2406.18902v2
- Date: Sun, 13 Oct 2024 11:29:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:04:36.255526
- Title: Statistical Test for Feature Selection Pipelines by Selective Inference
- Title(参考訳): 選択推論による特徴選択パイプラインの統計的評価
- Authors: Tomohiro Shiraishi, Tatsuya Matsukawa, Shuichi Nishino, Ichiro Takeuchi,
- Abstract要約: データ分析パイプラインは、生データを意味のある洞察に変換するステップの構造化されたシーケンスである。
本稿では,特徴選択問題におけるデータ解析パイプラインの重要性を評価するための新しい統計的テストを提案する。
- 参考スコア(独自算出の注目度): 13.628959580589665
- License:
- Abstract: A data analysis pipeline is a structured sequence of steps that transforms raw data into meaningful insights by integrating various analysis algorithms. In this paper, we propose a novel statistical test to assess the significance of data analysis pipelines in feature selection problems. Our approach enables the systematic development of valid statistical tests applicable to any feature selection pipeline composed of predefined components. We develop this framework based on selective inference, a statistical technique that has recently gained attention for data-driven hypotheses. As a proof of concept, we consider feature selection pipelines for linear models, composed of three missing value imputation algorithms, three outlier detection algorithms, and three feature selection algorithms. We theoretically prove that our statistical test can control the probability of false positive feature selection at any desired level, and demonstrate its validity and effectiveness through experiments on synthetic and real data. Additionally, we present an implementation framework that facilitates testing across any configuration of these feature selection pipelines without extra implementation costs.
- Abstract(参考訳): データ分析パイプラインは、さまざまな分析アルゴリズムを統合することで、生データを意味のある洞察に変換する、構造化されたステップのシーケンスである。
本稿では,特徴選択問題におけるデータ解析パイプラインの重要性を評価するための新しい統計テストを提案する。
提案手法は,事前定義されたコンポーネントからなる任意の特徴選択パイプラインに適用可能な有効な統計的テストの体系的開発を可能にする。
我々は,最近データ駆動仮説に注目が集まっている統計手法である選択的推論に基づいて,この枠組みを開発する。
概念実証として, 3つの値計算アルゴリズム, 3つの外乱検出アルゴリズム, 3つの特徴選択アルゴリズムからなる線形モデルの特徴選択パイプラインについて考察する。
理論的には、我々の統計的テストは、任意の所望のレベルで偽陽性特徴選択の確率を制御できることを証明し、合成および実データの実験を通して、その妥当性と有効性を示す。
さらに,これらの機能選択パイプラインの構成に対して,追加的な実装コストを伴わずにテストを容易にする実装フレームワークを提案する。
関連論文リスト
- fastHDMI: Fast Mutual Information Estimation for High-Dimensional Data [2.9901605297536027]
我々は高次元データセットにおける効率的な変数スクリーニングのために設計されたPythonパッケージであるfastHDMIを紹介した。
この研究は3つの相互情報推定手法のニューロイメージング変数選択への応用を開拓した。
論文 参考訳(メタデータ) (2024-10-14T01:49:53Z) - Statistical Test for Auto Feature Engineering by Selective Inference [12.703556860454565]
オートフィーチャーエンジニアリング(AFE)は、実用的な機械学習パイプラインの開発において重要な役割を果たす。
選択推論というフレームワークをベースとした,AFEアルゴリズムによる特徴量生成のための新しい統計的テストを提案する。
提案試験では, 生成した特徴の統計的意義を$p$-valuesの形で定量化し, 誤検出のリスクを理論的に保証する。
論文 参考訳(メタデータ) (2024-10-13T12:26:51Z) - Detecting and Identifying Selection Structure in Sequential Data [53.24493902162797]
我々は,音楽のシーケンスなどの実践的な状況において,潜在目的に基づくデータポイントの選択的包摂が一般的である,と論じる。
選択構造はパラメトリックな仮定や介入実験なしで識別可能であることを示す。
また、他の種類の依存関係と同様に、選択構造を検知し、識別するための証明可能な正当性アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-29T20:56:34Z) - Globally-Optimal Greedy Experiment Selection for Active Sequential
Estimation [1.1530723302736279]
逐次的に収集したデータの実験を適応的に選択するアクティブシーケンシャル推定の問題について検討する。
目標は、より正確なモデル推定のための実験選択ルールを設計することである。
そこで本稿では,グリーディ実験の選択手法のクラスを提案し,最大可能性の統計的解析を行う。
論文 参考訳(メタデータ) (2024-02-13T17:09:29Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - Measuring Statistical Dependencies via Maximum Norm and Characteristic
Functions [0.0]
本稿では, 連接関数と積対角特性関数の差の最大ノルムに基づく統計的依存度尺度を提案する。
提案手法は、2つの異なる次元のランダムベクトル間の任意の統計的依存を検出することができる。
シミュレーションデータと実データの両方を用いて実験を行う。
論文 参考訳(メタデータ) (2022-08-16T20:24:31Z) - Statistical inference of travelers' route choice preferences with
system-level data [4.120057972557892]
本研究では,システムレベルのデータを用いて旅行者の実用機能を複数の属性で推定する手法を開発した。
合成データを用いた実験では、係数は一貫して回復され、仮説テストはどの属性が旅行者の経路選択の決定要因であるかを特定する信頼できる統計量であることが示されている。
この方法論は、新型コロナウイルスの感染拡大時に収集された実際のFresnoworldマルチソースデータを使用して、大規模に展開される。
論文 参考訳(メタデータ) (2022-04-23T00:38:32Z) - Differential privacy and robust statistics in high dimensions [49.50869296871643]
高次元Propose-Test-Release (HPTR) は指数的メカニズム、頑健な統計、Propose-Test-Release メカニズムという3つの重要なコンポーネントの上に構築されている。
本論文では,HPTRが複数のシナリオで最適サンプル複雑性をほぼ達成していることを示す。
論文 参考訳(メタデータ) (2021-11-12T06:36:40Z) - Online Active Model Selection for Pre-trained Classifiers [72.84853880948894]
我々は,任意のラウンドにおいて高い確率で最良のモデルをラベル付けし,出力する情報的サンプルを積極的に選択するオンライン選択的サンプリング手法を設計する。
我々のアルゴリズムは、敵とストリームの両方のオンライン予測タスクに利用できる。
論文 参考訳(メタデータ) (2020-10-19T19:53:15Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。