論文の概要: Statistical Test for Auto Feature Engineering by Selective Inference
- arxiv url: http://arxiv.org/abs/2410.19768v1
- Date: Sun, 13 Oct 2024 12:26:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-03 08:20:06.905770
- Title: Statistical Test for Auto Feature Engineering by Selective Inference
- Title(参考訳): 選択推論による自動特徴工学の統計的検証
- Authors: Tatsuya Matsukawa, Tomohiro Shiraishi, Shuichi Nishino, Teruyuki Katsuoka, Ichiro Takeuchi,
- Abstract要約: オートフィーチャーエンジニアリング(AFE)は、実用的な機械学習パイプラインの開発において重要な役割を果たす。
選択推論というフレームワークをベースとした,AFEアルゴリズムによる特徴量生成のための新しい統計的テストを提案する。
提案試験では, 生成した特徴の統計的意義を$p$-valuesの形で定量化し, 誤検出のリスクを理論的に保証する。
- 参考スコア(独自算出の注目度): 12.703556860454565
- License:
- Abstract: Auto Feature Engineering (AFE) plays a crucial role in developing practical machine learning pipelines by automating the transformation of raw data into meaningful features that enhance model performance. By generating features in a data-driven manner, AFE enables the discovery of important features that may not be apparent through human experience or intuition. On the other hand, since AFE generates features based on data, there is a risk that these features may be overly adapted to the data, making it essential to assess their reliability appropriately. Unfortunately, because most AFE problems are formulated as combinatorial search problems and solved by heuristic algorithms, it has been challenging to theoretically quantify the reliability of generated features. To address this issue, we propose a new statistical test for generated features by AFE algorithms based on a framework called selective inference. As a proof of concept, we consider a simple class of tree search-based heuristic AFE algorithms, and consider the problem of testing the generated features when they are used in a linear model. The proposed test can quantify the statistical significance of the generated features in the form of $p$-values, enabling theoretically guaranteed control of the risk of false findings.
- Abstract(参考訳): Auto Feature Engineering(AFE)は、生データのモデルパフォーマンスを高める意味のある機能への変換を自動化することによって、実用的な機械学習パイプラインを開発する上で、重要な役割を果たす。
データ駆動方式で機能を生成することで、AFEは人間の経験や直観から明らかでない重要な機能を見つけることができる。
一方、AFEはデータに基づいて特徴を生成するため、これらの特徴がデータに過度に適合している可能性があるため、信頼性を適切に評価することが不可欠である。
残念ながら、ほとんどのAFE問題は組合せ探索問題として定式化され、ヒューリスティックアルゴリズムによって解決されているため、生成した特徴の信頼性を理論的に定量化することは困難である。
この問題に対処するために、選択的推論と呼ばれるフレームワークに基づいて、AFEアルゴリズムによって生成された特徴に対する新しい統計的テストを提案する。
概念実証として,木探索に基づくヒューリスティックAFEアルゴリズムの単純なクラスを考察し,線形モデルで使用した場合に生成した特徴をテストする問題を考察する。
提案試験では, 生成した特徴の統計的意義を$p$-valuesの形で定量化し, 誤検出のリスクを理論的に保証する。
関連論文リスト
- Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。
本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:04:39Z) - Conditional Feature Importance with Generative Modeling Using Adversarial Random Forests [1.0208529247755187]
説明可能な人工知能(XAI)では、条件付き特徴が予測モデルの性能に与える影響を評価する。
生成モデリングの最近の進歩は、条件付き特徴量の測定を容易にする。
本稿では,ARF推定条件分布から抽出した特徴値を用いて条件特徴重要度を測定する手法であるcARFiを提案する。
論文 参考訳(メタデータ) (2025-01-19T21:34:54Z) - Probabilities-Informed Machine Learning [0.0]
本研究では,出力関数の構造に関するドメイン知識から着想を得たMLパラダイムを提案する。
提案手法は,対象変数の確率的構造を学習プロセスに統合する。
モデル精度を高め、過度な適合と不適合のリスクを軽減する。
論文 参考訳(メタデータ) (2024-12-16T08:01:22Z) - A Hybrid Framework for Statistical Feature Selection and Image-Based Noise-Defect Detection [55.2480439325792]
本稿では,統計的特徴選択と分類技術を統合し,欠陥検出精度を向上させるハイブリッドフレームワークを提案する。
工業画像から抽出した55個の特徴を統計的手法を用いて解析した。
これらの手法をフレキシブルな機械学習アプリケーションに統合することにより、検出精度を改善し、偽陽性や誤分類を減らす。
論文 参考訳(メタデータ) (2024-12-11T22:12:21Z) - Explainability of Point Cloud Neural Networks Using SMILE: Statistical Model-Agnostic Interpretability with Local Explanations [0.0]
本研究は,深層ニューラルネットワーク用に設計された新たな説明可能性手法であるSMILEの実装を,ポイントクラウドベースモデルを用いて検討する。
このアプローチは、様々なカーネル幅、摂動数、クラスタリング構成における忠実度損失、R2スコア、ロバストネスの点で優れた性能を示す。
カテゴリの分類におけるデータセットバイアスをさらに特定し、安全クリティカルなアプリケーションにおいてより包括的なデータセットの必要性を強調した。
論文 参考訳(メタデータ) (2024-10-20T12:13:59Z) - Do Not Design, Learn: A Trainable Scoring Function for Uncertainty Estimation in Generative LLMs [32.672370840879616]
Learnable Response Scoring (LARS)は、トークンと確率の間の複雑な依存関係をキャプチャするために教師付きデータを活用する、新しいスコアリング機能である。
実験の結果,LARSは既存のスコアリング機能よりも優れており,最大16%のAUROCスコアが向上した。
論文 参考訳(メタデータ) (2024-06-17T07:30:40Z) - Privacy-preserving Federated Primal-dual Learning for Non-convex and Non-smooth Problems with Model Sparsification [51.04894019092156]
FL(Federated Learning)は,FLオーケストレーション(PS)の下でクライアント上でモデルをトレーニングする,急速に成長する領域として認識されている。
本稿では,非滑らかなFL問題に対して,新しい一次分離アルゴリズムを提案し,保証する。
その独特な洞察力のある性質とその分析も提示される。
論文 参考訳(メタデータ) (2023-10-30T14:15:47Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - FeatGeNN: Improving Model Performance for Tabular Data with
Correlation-based Feature Extraction [0.22792085593908193]
FeatGeNNは、プール機能として相関を使って新機能を抽出し、生成する畳み込み方式である。
提案手法を様々なベンチマークデータセット上で評価し,FeatGeNNがモデル性能に関する既存のAutoFEアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2023-08-15T01:48:11Z) - Estimating Structural Target Functions using Machine Learning and
Influence Functions [103.47897241856603]
統計モデルから特定可能な関数として生じる対象関数の統計的機械学習のための新しい枠組みを提案する。
このフレームワークは問題とモデルに依存しないものであり、応用統計学における幅広い対象パラメータを推定するのに使用できる。
我々は、部分的に観測されていない情報を持つランダム/二重ロバストな問題において、いわゆる粗大化に特に焦点をあてた。
論文 参考訳(メタデータ) (2020-08-14T16:48:29Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。