論文の概要: Nonparametric Feature Impact and Importance
- arxiv url: http://arxiv.org/abs/2006.04750v1
- Date: Mon, 8 Jun 2020 17:07:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 00:50:07.980935
- Title: Nonparametric Feature Impact and Importance
- Title(参考訳): 非パラメトリック特徴の影響と重要性
- Authors: Terence Parr, James D. Wilson, Jeff Hamrick
- Abstract要約: データ上で直接動作する部分依存曲線から導かれる特徴的影響と重要性の数学的定義を与える。
品質を評価するために、これらの定義によってランク付けされた特徴は、既存の特徴選択技術と競合することを示す。
- 参考スコア(独自算出の注目度): 0.6123324869194193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Practitioners use feature importance to rank and eliminate weak predictors
during model development in an effort to simplify models and improve
generality. Unfortunately, they also routinely conflate such feature importance
measures with feature impact, the isolated effect of an explanatory variable on
the response variable. This can lead to real-world consequences when importance
is inappropriately interpreted as impact for business or medical insight
purposes. The dominant approach for computing importances is through
interrogation of a fitted model, which works well for feature selection, but
gives distorted measures of feature impact. The same method applied to the same
data set can yield different feature importances, depending on the model,
leading us to conclude that impact should be computed directly from the data.
While there are nonparametric feature selection algorithms, they typically
provide feature rankings, rather than measures of impact or importance. They
also typically focus on single-variable associations with the response. In this
paper, we give mathematical definitions of feature impact and importance,
derived from partial dependence curves, that operate directly on the data. To
assess quality, we show that features ranked by these definitions are
competitive with existing feature selection techniques using three real data
sets for predictive tasks.
- Abstract(参考訳): 実践者は、モデルを単純化し、汎用性を改善するために、モデル開発中に弱い予測因子をランク付けし排除するために特徴的重要性を使用する。
残念なことに、これらの特徴的重要度と特徴的影響、つまり説明変数が応答変数に与える影響を日常的に満たしている。
これは、ビジネスや医学的洞察の目的にとって重要性が不適切な影響を与えると解釈された場合、現実世界に影響を及ぼす可能性がある。
計算の重要性に対する主要なアプローチは、特徴選択にうまく機能するが、特徴の影響を歪曲した尺度を与える適合モデルの尋問である。
同じデータセットに適用された同じ手法は、モデルによって異なる特徴を生み出すことができ、結果、影響はデータから直接計算されるべきであると結論付ける。
非パラメトリックな特徴選択アルゴリズムはあるが、通常は影響や重要性の尺度ではなく、機能ランキングを提供する。
通常は、応答と単一変数の関連に焦点を合わせます。
本稿では,データに対して直接作用する部分依存曲線から導かれる特徴的影響と重要性を数学的に定義する。
品質を評価するために,これらの定義によってランク付けされた特徴は,既存の特徴選択手法と競合することを示す。
関連論文リスト
- Word Matters: What Influences Domain Adaptation in Summarization? [43.7010491942323]
本稿では,ドメイン適応性能に影響を及ぼすきめ細かな要因について検討する。
本稿では,生成的要約の学習難しさとして,データセット学習の難しさの定量化を提案する。
実験により,データセット学習の難易度を考慮すると,要約タスクにおけるドメイン間オーバーラップと性能向上が近似線形関係を示すことがわかった。
論文 参考訳(メタデータ) (2024-06-21T02:15:49Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - A Notion of Feature Importance by Decorrelation and Detection of Trends
by Random Forest Regression [1.675857332621569]
本稿では,よく研究されたGram-Schmidt decorrelation法に基づく特徴重要度の概念を導入する。
本研究では,ランダムな森林回帰を用いてデータ中の傾向を推定する2つの推定手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T11:01:49Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - The Invariant Ground Truth of Affect [2.570570340104555]
感情の基底的真理は、感情の主観的な性質とそのラベルに固有のバイアスを意図せずに含んでいる影響ラベルに起因している。
本稿では、因果関係論の側面を感情計算に伝達することにより、影響の信頼性の高い基礎的真理を得る方法について再検討する。
我々は、情緒的コーパスにおけるアウトリーチの検出と、参加者やタスク間で堅牢な影響モデルの構築に、因果関係にインスパイアされた手法を採用している。
論文 参考訳(メタデータ) (2022-10-14T08:26:01Z) - Feature Selection for Discovering Distributional Treatment Effect
Modifiers [37.09619678733784]
治療効果の違いに関連する特徴を明らかにするための枠組みを提案する。
特徴属性が潜在的結果分布の相違にどの程度強く影響するかを定量化する特徴重要度尺度を導出する。
そこで我々は,I型エラー率を所望レベルまで制御できる特徴選択アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-01T14:25:32Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Information Theoretic Measures for Fairness-aware Feature Selection [27.06618125828978]
我々は,特徴の精度と識別的影響に関する情報理論に基づく,公平性を考慮した特徴選択のためのフレームワークを開発する。
具体的には、この機能が正確性や非差別的判断にどのように影響するかを定量化する、各機能に対する公平性ユーティリティスコアを設計することを目的としています。
論文 参考訳(メタデータ) (2021-06-01T20:11:54Z) - Influence Functions in Deep Learning Are Fragile [52.31375893260445]
影響関数は、テスト時間予測におけるサンプルの効果を近似する。
影響評価は浅いネットワークでは かなり正確です
ヘッセン正則化は、高品質な影響推定を得るために重要である。
論文 参考訳(メタデータ) (2020-06-25T18:25:59Z) - Explaining Black Box Predictions and Unveiling Data Artifacts through
Influence Functions [55.660255727031725]
影響関数は、影響力のあるトレーニング例を特定することによって、モデルの判断を説明する。
本稿では,代表課題における影響関数と共通単語順応法の比較を行う。
我々は,学習データ中の成果物を明らかにすることができる影響関数に基づく新しい尺度を開発した。
論文 参考訳(メタデータ) (2020-05-14T00:45:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。