論文の概要: Statistical Test for Auto Feature Engineering by Selective Inference
- arxiv url: http://arxiv.org/abs/2410.19768v1
- Date: Sun, 13 Oct 2024 12:26:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-03 08:20:06.905770
- Title: Statistical Test for Auto Feature Engineering by Selective Inference
- Title(参考訳): 選択推論による自動特徴工学の統計的検証
- Authors: Tatsuya Matsukawa, Tomohiro Shiraishi, Shuichi Nishino, Teruyuki Katsuoka, Ichiro Takeuchi,
- Abstract要約: オートフィーチャーエンジニアリング(AFE)は、実用的な機械学習パイプラインの開発において重要な役割を果たす。
選択推論というフレームワークをベースとした,AFEアルゴリズムによる特徴量生成のための新しい統計的テストを提案する。
提案試験では, 生成した特徴の統計的意義を$p$-valuesの形で定量化し, 誤検出のリスクを理論的に保証する。
- 参考スコア(独自算出の注目度): 12.703556860454565
- License:
- Abstract: Auto Feature Engineering (AFE) plays a crucial role in developing practical machine learning pipelines by automating the transformation of raw data into meaningful features that enhance model performance. By generating features in a data-driven manner, AFE enables the discovery of important features that may not be apparent through human experience or intuition. On the other hand, since AFE generates features based on data, there is a risk that these features may be overly adapted to the data, making it essential to assess their reliability appropriately. Unfortunately, because most AFE problems are formulated as combinatorial search problems and solved by heuristic algorithms, it has been challenging to theoretically quantify the reliability of generated features. To address this issue, we propose a new statistical test for generated features by AFE algorithms based on a framework called selective inference. As a proof of concept, we consider a simple class of tree search-based heuristic AFE algorithms, and consider the problem of testing the generated features when they are used in a linear model. The proposed test can quantify the statistical significance of the generated features in the form of $p$-values, enabling theoretically guaranteed control of the risk of false findings.
- Abstract(参考訳): Auto Feature Engineering(AFE)は、生データのモデルパフォーマンスを高める意味のある機能への変換を自動化することによって、実用的な機械学習パイプラインを開発する上で、重要な役割を果たす。
データ駆動方式で機能を生成することで、AFEは人間の経験や直観から明らかでない重要な機能を見つけることができる。
一方、AFEはデータに基づいて特徴を生成するため、これらの特徴がデータに過度に適合している可能性があるため、信頼性を適切に評価することが不可欠である。
残念ながら、ほとんどのAFE問題は組合せ探索問題として定式化され、ヒューリスティックアルゴリズムによって解決されているため、生成した特徴の信頼性を理論的に定量化することは困難である。
この問題に対処するために、選択的推論と呼ばれるフレームワークに基づいて、AFEアルゴリズムによって生成された特徴に対する新しい統計的テストを提案する。
概念実証として,木探索に基づくヒューリスティックAFEアルゴリズムの単純なクラスを考察し,線形モデルで使用した場合に生成した特徴をテストする問題を考察する。
提案試験では, 生成した特徴の統計的意義を$p$-valuesの形で定量化し, 誤検出のリスクを理論的に保証する。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。
本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Explainability of Point Cloud Neural Networks Using SMILE: Statistical Model-Agnostic Interpretability with Local Explanations [0.0]
本研究は,深層ニューラルネットワーク用に設計された新たな説明可能性手法であるSMILEの実装を,ポイントクラウドベースモデルを用いて検討する。
このアプローチは、様々なカーネル幅、摂動数、クラスタリング構成における忠実度損失、R2スコア、ロバストネスの点で優れた性能を示す。
カテゴリの分類におけるデータセットバイアスをさらに特定し、安全クリティカルなアプリケーションにおいてより包括的なデータセットの必要性を強調した。
論文 参考訳(メタデータ) (2024-10-20T12:13:59Z) - Do Not Design, Learn: A Trainable Scoring Function for Uncertainty Estimation in Generative LLMs [32.672370840879616]
Learnable Response Scoring (LARS)は、トークンと確率の間の複雑な依存関係をキャプチャするために教師付きデータを活用する、新しいスコアリング機能である。
実験の結果,LARSは既存のスコアリング機能よりも優れており,最大16%のAUROCスコアが向上した。
論文 参考訳(メタデータ) (2024-06-17T07:30:40Z) - Privacy-preserving Federated Primal-dual Learning for Non-convex and Non-smooth Problems with Model Sparsification [51.04894019092156]
FL(Federated Learning)は,FLオーケストレーション(PS)の下でクライアント上でモデルをトレーニングする,急速に成長する領域として認識されている。
本稿では,非滑らかなFL問題に対して,新しい一次分離アルゴリズムを提案し,保証する。
その独特な洞察力のある性質とその分析も提示される。
論文 参考訳(メタデータ) (2023-10-30T14:15:47Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - LaPLACE: Probabilistic Local Model-Agnostic Causal Explanations [1.0370398945228227]
本稿では,機械学習モデルに対する確率論的原因・効果説明を提供するLaPLACE-Explainerを紹介する。
LaPLACE-Explainerコンポーネントはマルコフ毛布の概念を利用して、関連する特徴と非関連する特徴の間の統計的境界を確立する。
提案手法は,LIME と SHAP の局所的精度と特徴の整合性の観点から,因果的説明と性能を向上する。
論文 参考訳(メタデータ) (2023-10-01T04:09:59Z) - FeatGeNN: Improving Model Performance for Tabular Data with
Correlation-based Feature Extraction [0.22792085593908193]
FeatGeNNは、プール機能として相関を使って新機能を抽出し、生成する畳み込み方式である。
提案手法を様々なベンチマークデータセット上で評価し,FeatGeNNがモデル性能に関する既存のAutoFEアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2023-08-15T01:48:11Z) - FAStEN: An Efficient Adaptive Method for Feature Selection and Estimation in High-Dimensional Functional Regressions [7.674715791336311]
本稿では,スパース関数オン・ファンクション回帰問題において特徴選択を行うための,新しい,柔軟な,超効率的なアプローチを提案する。
我々はそれをスカラー・オン・ファンクション・フレームワークに拡張する方法を示す。
AOMIC PIOP1による脳MRIデータへの応用について述べる。
論文 参考訳(メタデータ) (2023-03-26T19:41:17Z) - Learning summary features of time series for likelihood free inference [93.08098361687722]
時系列データから要約機能を自動的に学習するためのデータ駆動型戦略を提案する。
以上の結果から,データから要約的特徴を学習することで,手作りの値に基づいてLFI手法よりも優れる可能性が示唆された。
論文 参考訳(メタデータ) (2020-12-04T19:21:37Z) - Estimating Structural Target Functions using Machine Learning and
Influence Functions [103.47897241856603]
統計モデルから特定可能な関数として生じる対象関数の統計的機械学習のための新しい枠組みを提案する。
このフレームワークは問題とモデルに依存しないものであり、応用統計学における幅広い対象パラメータを推定するのに使用できる。
我々は、部分的に観測されていない情報を持つランダム/二重ロバストな問題において、いわゆる粗大化に特に焦点をあてた。
論文 参考訳(メタデータ) (2020-08-14T16:48:29Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。