論文の概要: When Features Beat Noise: A Feature Selection Technique Through Noise-Based Hypothesis Testing
- arxiv url: http://arxiv.org/abs/2511.20851v2
- Date: Sat, 29 Nov 2025 20:18:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 13:32:07.430887
- Title: When Features Beat Noise: A Feature Selection Technique Through Noise-Based Hypothesis Testing
- Title(参考訳): 騒音に勝る時--雑音に基づく仮説テストによる特徴選択手法-
- Authors: Mousam Sinha, Tirtha Sarathi Ghosh, Ridam Pal,
- Abstract要約: 機能選択は、機械学習と人工知能において、いまだに困難な課題である。
一般的なアプローチは、複数のランダムノイズ特徴を導入し、最強ノイズ特徴より上位の全ての予測器を保持する。
本稿では,これらの制約に対処する特徴選択手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Feature selection has remained a daunting challenge in machine learning and artificial intelligence, where increasingly complex, high-dimensional datasets demand principled strategies for isolating the most informative predictors. Despite widespread adoption, many established techniques suffer from notable limitations; some incur substantial computational cost, while others offer no definite statistical driven stopping criteria or assesses the significance of their importance scores. A common heuristic approach introduces multiple random noise features and retains all predictors ranked above the strongest noise feature. Although intuitive, this strategy lacks theoretical justification and depends heavily on heuristics. This paper proposes a novel feature selection method that addresses these limitations. Our approach introduces multiple random noise features and evaluates each feature's importance against the maximum importance value among these noise features incorporating a non-parametric bootstrap-based hypothesis testing framework to establish a solid theoretical foundation. We establish the conceptual soundness of our approach through statistical derivations that articulate the principles guiding the design of our algorithm. To evaluate its reliability, we generated simulated datasets under controlled statistical settings and benchmarked performance against Boruta and Knockoff-based methods, observing consistently stronger recovery of meaningful signal. As a demonstration of practical utility, we applied the technique across diverse real-world datasets, where it surpassed feature selection techniques including Boruta, RFE, and Extra Trees. Hence, the method emerges as a robust algorithm for principled feature selection, enabling the distillation of informative predictors that support reliable inference, enhanced predictive performance, and efficient computation.
- Abstract(参考訳): 特徴の選択は、ますます複雑で高次元のデータセットが、最も情報に富む予測者を隔離するための原則化された戦略を要求する、機械学習と人工知能において、いまだに困難な課題である。
広く採用されているにも拘わらず、多くの確立された技術は顕著な限界に悩まされており、かなりの計算コストがかかるものもあれば、特定の統計的に駆動された停止基準を提供していないものや、重要なスコアの重要さを評価するものもある。
一般的なヒューリスティックなアプローチは、複数のランダムノイズ特徴を導入し、最強ノイズ特徴より上位の全ての予測器を保持する。
直感的ではあるが、この戦略は理論的な正当化に欠けており、ヒューリスティックスに大きく依存している。
本稿では,これらの制約に対処する特徴選択手法を提案する。
提案手法は,複数のランダムノイズ特徴を導入し,非パラメトリックブートストラップに基づく仮説テストフレームワークを組み込んだ理論的基礎を確立することで,これらのノイズ特徴の最大重要性に対する各特徴の重要性を評価する。
我々は,アルゴリズムの設計を導く原理を明示する統計的導出を通じて,アプローチの概念的健全性を確立する。
その信頼性を評価するため、制御された統計的設定下でシミュレーションデータセットを生成し、ボルタ法とノックオフ法に対してベンチマークを行い、有意義な信号の絶対的な回復を観察した。
実用性の実証として,本手法を実世界のさまざまなデータセットに適用し,ボルタ,RFE,エクストラツリーなどの特徴選択手法を超越した。
そこで本手法は, 信頼性推論, 予測性能の向上, 効率的な計算を支援する情報予測器の蒸留を可能にする, 原理的特徴選択のための堅牢なアルゴリズムとして出現する。
関連論文リスト
- AICO: Feature Significance Tests for Supervised Learning [0.9474649136535703]
AICOは、トレーニングされた回帰モデルや分類モデルに対して、各機能がモデルのパフォーマンスを真に改善するかどうかを問う。
機能の情報を隠蔽し、結果として生じるパフォーマンスの変化を測定することで実現します。
AICOは、モデルの振る舞いを駆動する変数を一貫して特定する。
論文 参考訳(メタデータ) (2025-06-29T21:15:40Z) - A Hybrid Framework for Statistical Feature Selection and Image-Based Noise-Defect Detection [55.2480439325792]
本稿では,統計的特徴選択と分類技術を統合し,欠陥検出精度を向上させるハイブリッドフレームワークを提案する。
工業画像から抽出した55個の特徴を統計的手法を用いて解析した。
これらの手法をフレキシブルな機械学習アプリケーションに統合することにより、検出精度を改善し、偽陽性や誤分類を減らす。
論文 参考訳(メタデータ) (2024-12-11T22:12:21Z) - Statistical Inference for Temporal Difference Learning with Linear Function Approximation [55.80276145563105]
The statistics properties of Temporal difference learning with Polyak-Ruppert averaging。
3つの理論的な貢献により、現在の最先端の成果が向上する。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Uncertainty for Active Learning on Graphs [70.44714133412592]
不確実性サンプリングは、機械学習モデルのデータ効率を改善することを目的とした、アクティブな学習戦略である。
予測の不確実性を超えた不確実性サンプリングをベンチマークし、他のアクティブラーニング戦略に対する大きなパフォーマンスギャップを強調します。
提案手法は,データ生成プロセスの観点から基幹的ベイズ不確実性推定法を開発し,不確実性サンプリングを最適クエリへ導く上での有効性を実証する。
論文 参考訳(メタデータ) (2024-05-02T16:50:47Z) - Deep Active Learning with Noise Stability [24.54974925491753]
ラベルのないデータの不確実性推定は、アクティブな学習に不可欠である。
本稿では,雑音の安定性を利用して不確実性を推定する新しいアルゴリズムを提案する。
本手法はコンピュータビジョン,自然言語処理,構造データ解析など,様々なタスクに適用可能である。
論文 参考訳(メタデータ) (2022-05-26T13:21:01Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。