論文の概要: AICO: Feature Significance Tests for Supervised Learning
- arxiv url: http://arxiv.org/abs/2506.23396v1
- Date: Sun, 29 Jun 2025 21:15:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.859043
- Title: AICO: Feature Significance Tests for Supervised Learning
- Title(参考訳): AICO: 教師付き学習のための重要なテスト
- Authors: Kay Giesecke, Enguerrand Horel, Chartsiri Jirachotkulthorn,
- Abstract要約: 本稿では,任意の回帰アルゴリズムや分類アルゴリズムにおける入力特徴の影響を評価するために,モデルおよび分布に依存しない重要度テストを開発する。
我々は、この中央値に対して一様に強力でランダムな符号テストを構築し、特徴量と信頼区間を評価するための正確なp値を得る。
合成タスクの実験は、その統計的および計算上の利点を検証し、実世界のデータへの適用は、その実用性を示している。
- 参考スコア(独自算出の注目度): 0.5142666700569699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The opacity of many supervised learning algorithms remains a key challenge, hindering scientific discovery and limiting broader deployment -- particularly in high-stakes domains. This paper develops model- and distribution-agnostic significance tests to assess the influence of input features in any regression or classification algorithm. Our method evaluates a feature's incremental contribution to model performance by masking its values across samples. Under the null hypothesis, the distribution of performance differences across a test set has a non-positive median. We construct a uniformly most powerful, randomized sign test for this median, yielding exact p-values for assessing feature significance and confidence intervals with exact coverage for estimating population-level feature importance. The approach requires minimal assumptions, avoids model retraining or auxiliary models, and remains computationally efficient even for large-scale, high-dimensional settings. Experiments on synthetic tasks validate its statistical and computational advantages, and applications to real-world data illustrate its practical utility.
- Abstract(参考訳): 多くの教師付き学習アルゴリズムの不透明さは依然として重要な課題であり、科学的な発見を妨げ、より広範な展開を制限する。
本稿では,任意の回帰アルゴリズムや分類アルゴリズムにおける入力特徴の影響を評価するために,モデルおよび分布に依存しない重要度テストを開発する。
提案手法は,サンプル間の値のマスキングにより,特徴量のモデル性能への漸進的寄与を評価する。
ヌル仮説の下では、テストセット間の性能差の分布は非正の中央値を持つ。
我々は、この中央値に対して一様に強力でランダムなサインテストを構築し、特徴量と信頼区間を評価するための正確なp値と、人口レベルの特徴量を評価するための正確なカバレッジを得られる。
このアプローチは最小限の仮定を必要とし、モデルの再訓練や補助モデルを避け、大規模で高次元の設定であっても計算効率を保っている。
合成タスクの実験は、その統計的および計算上の利点を検証し、実世界のデータへの適用は、その実用性を示している。
関連論文リスト
- Testing and Improving the Robustness of Amortized Bayesian Inference for Cognitive Models [0.5223954072121659]
汚染物質観測とアウトリーチは、認知モデルのパラメータを推定する際にしばしば問題を引き起こす。
本研究では,アモルタイズされたベイズ推定を用いたパラメータ推定のロバスト性を検証・改善する。
提案手法は実装が簡単で実用的であり,外乱検出や除去が困難な分野に適用可能である。
論文 参考訳(メタデータ) (2024-12-29T21:22:24Z) - The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward Passes [30.30769701138665]
我々は、訓練データとテストデータの間の相互影響を浮き彫りにして、ミラーレッド影響仮説を導入し、探求する。
具体的には、テスト予測に対するトレーニングデータの影響を評価することは、等価だが逆問題として再定義することができることを示唆している。
トレーニングポイント毎に前方パスとペアを組むことで,特定のテストサンプルの勾配を計算し,トレーニングデータの影響を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-14T03:43:05Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Modeling Uncertain Feature Representation for Domain Generalization [49.129544670700525]
提案手法は,複数の視覚タスクにおけるネットワーク一般化能力を常に改善することを示す。
我々の手法は単純だが有効であり、トレーニング可能なパラメータや損失制約を伴わずにネットワークに容易に統合できる。
論文 参考訳(メタデータ) (2023-01-16T14:25:02Z) - Uncertainty Modeling for Out-of-Distribution Generalization [56.957731893992495]
特徴統計を適切に操作することで、ディープラーニングモデルの一般化能力を向上させることができると論じる。
一般的な手法では、特徴統計を学習した特徴から測定された決定論的値とみなすことが多い。
我々は、学習中に合成された特徴統計を用いて、領域シフトの不確かさをモデル化することにより、ネットワークの一般化能力を向上させる。
論文 参考訳(メタデータ) (2022-02-08T16:09:12Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Estimating Structural Target Functions using Machine Learning and
Influence Functions [103.47897241856603]
統計モデルから特定可能な関数として生じる対象関数の統計的機械学習のための新しい枠組みを提案する。
このフレームワークは問題とモデルに依存しないものであり、応用統計学における幅広い対象パラメータを推定するのに使用できる。
我々は、部分的に観測されていない情報を持つランダム/二重ロバストな問題において、いわゆる粗大化に特に焦点をあてた。
論文 参考訳(メタデータ) (2020-08-14T16:48:29Z) - Efficient nonparametric statistical inference on population feature
importance using Shapley values [7.6146285961466]
本稿では,SPVIM(Shapley Population Variable Importance Measure)を用いた統計的推定手法を提案する。
真の SPVIM の計算複雑性は変数数とともに指数関数的に増大するが, ランダムサンプリングのみに基づく推定器を提案する。
提案手法はシミュレーションにおける有限サンプル性能が良好であり, 異なる機械学習アルゴリズムを適用した場合, ホスピタル内予測タスクでも同様の変数重要度推定が可能である。
論文 参考訳(メタデータ) (2020-06-16T19:47:11Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。