Fugu-MT 論文翻訳(概要): Statistical Test for Feature Selection Pipelines by Selective Inference

論文の概要: Statistical Test for Feature Selection Pipelines by Selective Inference

arxiv url: http://arxiv.org/abs/2406.18902v2
Date: Sun, 13 Oct 2024 11:29:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 05:20:00.545954
Title: Statistical Test for Feature Selection Pipelines by Selective Inference
Title（参考訳）: 選択推論による特徴選択パイプラインの統計的評価
Authors: Tomohiro Shiraishi, Tatsuya Matsukawa, Shuichi Nishino, Ichiro Takeuchi,
Abstract要約: データ分析パイプラインは、生データを意味のある洞察に変換するステップの構造化されたシーケンスである。本稿では,特徴選択問題におけるデータ解析パイプラインの重要性を評価するための新しい統計的テストを提案する。
参考スコア（独自算出の注目度）: 13.628959580589665
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A data analysis pipeline is a structured sequence of steps that transforms raw data into meaningful insights by integrating various analysis algorithms. In this paper, we propose a novel statistical test to assess the significance of data analysis pipelines in feature selection problems. Our approach enables the systematic development of valid statistical tests applicable to any feature selection pipeline composed of predefined components. We develop this framework based on selective inference, a statistical technique that has recently gained attention for data-driven hypotheses. As a proof of concept, we consider feature selection pipelines for linear models, composed of three missing value imputation algorithms, three outlier detection algorithms, and three feature selection algorithms. We theoretically prove that our statistical test can control the probability of false positive feature selection at any desired level, and demonstrate its validity and effectiveness through experiments on synthetic and real data. Additionally, we present an implementation framework that facilitates testing across any configuration of these feature selection pipelines without extra implementation costs.
Abstract（参考訳）: データ分析パイプラインは、さまざまな分析アルゴリズムを統合することで、生データを意味のある洞察に変換する、構造化されたステップのシーケンスである。本稿では,特徴選択問題におけるデータ解析パイプラインの重要性を評価するための新しい統計テストを提案する。提案手法は,事前定義されたコンポーネントからなる任意の特徴選択パイプラインに適用可能な有効な統計的テストの体系的開発を可能にする。我々は,最近データ駆動仮説に注目が集まっている統計手法である選択的推論に基づいて,この枠組みを開発する。概念実証として, 3つの値計算アルゴリズム, 3つの外乱検出アルゴリズム, 3つの特徴選択アルゴリズムからなる線形モデルの特徴選択パイプラインについて考察する。理論的には、我々の統計的テストは、任意の所望のレベルで偽陽性特徴選択の確率を制御できることを証明し、合成および実データの実験を通して、その妥当性と有効性を示す。さらに,これらの機能選択パイプラインの構成に対して,追加的な実装コストを伴わずにテストを容易にする実装フレームワークを提案する。

関連論文リスト

Flexible Selective Inference with Flow-based Transport Maps [7.197592390105458]
本稿では,フローベース生成モデルからのツールを利用して,潜在的に複雑な条件分布を近似する手法を提案する。本研究では、適応的に選択された仮説とパラメータに対して有効なp値と信頼セットを提供することにより、柔軟な選択的推論を可能にすることを実証する。
論文参考訳（メタデータ） (2025-06-01T20:05:20Z)
Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文参考訳（メタデータ） (2025-02-17T18:04:39Z)
A Hybrid Framework for Statistical Feature Selection and Image-Based Noise-Defect Detection [55.2480439325792]
本稿では,統計的特徴選択と分類技術を統合し,欠陥検出精度を向上させるハイブリッドフレームワークを提案する。工業画像から抽出した55個の特徴を統計的手法を用いて解析した。これらの手法をフレキシブルな機械学習アプリケーションに統合することにより、検出精度を改善し、偽陽性や誤分類を減らす。
論文参考訳（メタデータ） (2024-12-11T22:12:21Z)
fastHDMI: Fast Mutual Information Estimation for High-Dimensional Data [2.9901605297536027]
我々は高次元データセットにおける効率的な変数スクリーニングのために設計されたPythonパッケージであるfastHDMIを紹介した。この研究は3つの相互情報推定手法のニューロイメージング変数選択への応用を開拓した。
論文参考訳（メタデータ） (2024-10-14T01:49:53Z)
Statistical Test for Auto Feature Engineering by Selective Inference [12.703556860454565]
オートフィーチャーエンジニアリング(AFE)は、実用的な機械学習パイプラインの開発において重要な役割を果たす。選択推論というフレームワークをベースとした,AFEアルゴリズムによる特徴量生成のための新しい統計的テストを提案する。提案試験では, 生成した特徴の統計的意義を$p$-valuesの形で定量化し, 誤検出のリスクを理論的に保証する。
論文参考訳（メタデータ） (2024-10-13T12:26:51Z)
Detecting and Identifying Selection Structure in Sequential Data [53.24493902162797]
我々は,音楽のシーケンスなどの実践的な状況において,潜在目的に基づくデータポイントの選択的包摂が一般的である,と論じる。選択構造はパラメトリックな仮定や介入実験なしで識別可能であることを示す。また、他の種類の依存関係と同様に、選択構造を検知し、識別するための証明可能な正当性アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-29T20:56:34Z)
Take the essence and discard the dross: A Rethinking on Data Selection for Fine-Tuning Large Language Models [36.22392593103493]
微調整された大規模言語モデル(LLM)のデータ選択は、既存のデータセットから高品質なサブセットを選択することを目的としている。既存の調査では、微調整フェーズの詳細な調査を見落としている。特徴抽出, 基準設計, セレクタ評価を含む新しい3段階の手法を導入し, これらの手法を体系的に分類し, 評価する。
論文参考訳（メタデータ） (2024-06-20T08:58:58Z)
Globally-Optimal Greedy Experiment Selection for Active Sequential Estimation [1.1530723302736279]
逐次的に収集したデータの実験を適応的に選択するアクティブシーケンシャル推定の問題について検討する。目標は、より正確なモデル推定のための実験選択ルールを設計することである。そこで本稿では,グリーディ実験の選択手法のクラスを提案し,最大可能性の統計的解析を行う。
論文参考訳（メタデータ） (2024-02-13T17:09:29Z)
Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文参考訳（メタデータ） (2023-10-17T08:04:45Z)
Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。 FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文参考訳（メタデータ） (2023-09-29T15:50:14Z)
Measuring Statistical Dependencies via Maximum Norm and Characteristic Functions [0.0]
本稿では, 連接関数と積対角特性関数の差の最大ノルムに基づく統計的依存度尺度を提案する。提案手法は、2つの異なる次元のランダムベクトル間の任意の統計的依存を検出することができる。シミュレーションデータと実データの両方を用いて実験を行う。
論文参考訳（メタデータ） (2022-08-16T20:24:31Z)
Statistical inference of travelers' route choice preferences with system-level data [4.120057972557892]
本研究では,システムレベルのデータを用いて旅行者の実用機能を複数の属性で推定する手法を開発した。合成データを用いた実験では、係数は一貫して回復され、仮説テストはどの属性が旅行者の経路選択の決定要因であるかを特定する信頼できる統計量であることが示されている。この方法論は、新型コロナウイルスの感染拡大時に収集された実際のFresnoworldマルチソースデータを使用して、大規模に展開される。
論文参考訳（メタデータ） (2022-04-23T00:38:32Z)
Differential privacy and robust statistics in high dimensions [49.50869296871643]
高次元Propose-Test-Release (HPTR) は指数的メカニズム、頑健な統計、Propose-Test-Release メカニズムという3つの重要なコンポーネントの上に構築されている。本論文では,HPTRが複数のシナリオで最適サンプル複雑性をほぼ達成していることを示す。
論文参考訳（メタデータ） (2021-11-12T06:36:40Z)
Online Active Model Selection for Pre-trained Classifiers [72.84853880948894]
我々は,任意のラウンドにおいて高い確率で最良のモデルをラベル付けし,出力する情報的サンプルを積極的に選択するオンライン選択的サンプリング手法を設計する。我々のアルゴリズムは、敵とストリームの両方のオンライン予測タスクに利用できる。
論文参考訳（メタデータ） (2020-10-19T19:53:15Z)
Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文参考訳（メタデータ） (2020-06-10T20:20:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。