論文の概要: Variable importance scores
- arxiv url: http://arxiv.org/abs/2102.07765v1
- Date: Sat, 13 Feb 2021 05:08:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 15:02:26.879273
- Title: Variable importance scores
- Title(参考訳): 可変重要度スコア
- Authors: Wei-Yin Loh and Peigen Zhou
- Abstract要約: 本稿では,GUIDEアルゴリズムに基づく11手法の比較評価と更新手法を用いて,そのギャップを埋める。
値が欠けているデータの場合、8つのメソッドは、異なる種類の変数に対してより高いスコアまたは低いスコアを与えるという偏りが示される。
その結果,多くの手法のスコアは条件付き予測力よりも限界予測力と一致していることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Scoring of variables for importance in predicting a response is an
ill-defined concept. Several methods have been proposed but little is known of
their performance. This paper fills the gap with a comparative evaluation of
eleven methods and an updated one based on the GUIDE algorithm. For data
without missing values, eight of the methods are shown to be biased in that
they give higher or lower scores to different types of variables, even when all
are independent of the response. Of the remaining four methods, only two are
applicable to data with missing values, with GUIDE the only unbiased one. GUIDE
achieves unbiasedness by using a self-calibrating step that is applicable to
other methods for score de-biasing. GUIDE also yields a threshold for
distinguishing important from unimportant variables at 95 and 99 percent
confidence levels; the technique is applicable to other methods as well.
Finally, the paper studies the relationship of the scores to predictive power
in three data sets. It is found that the scores of many methods are more
consistent with marginal predictive power than conditional predictive power.
- Abstract(参考訳): 応答を予測することの重要性に対する変数のスコア付けは、不明確な概念である。
いくつかの方法が提案されているが、その性能はほとんど知られていない。
本稿では,GUIDEアルゴリズムに基づく11手法の比較評価と更新手法を用いて,そのギャップを埋める。
欠落した値のないデータに対しては、8つのメソッドのバイアスが示され、それぞれが応答から独立している場合でも、異なるタイプの変数に対して高いスコアまたは低いスコアを与える。
残りの4つのメソッドのうち、2つだけが欠落した値を持つデータに適用可能であり、GUIDEだけがバイアスのないデータである。
ガイドは、他のスコア脱バイアス方法に適用可能な自己調整ステップを使用することで、偏りを解消する。
GUIDEはまた、95および99%の信頼性レベルで重要でない変数と重要な変数を区別するためのしきい値を生成します。
最後に,3つのデータセットにおけるスコアと予測力の関係について検討した。
その結果,多くの手法のスコアは条件付き予測力よりも限界予測力と一致していることがわかった。
関連論文リスト
- Don't Throw it Away! The Utility of Unlabeled Data in Fair Decision
Making [14.905698014932488]
そこで本研究では,実用的公正意思決定のための変分オートエンコーダに基づく新しい手法を提案する。
本手法はラベル付きデータとラベルなしデータの両方を活用する非バイアスデータ表現を学習する。
提案手法は,低分散の基底構造に従って最適(フェア)ポリシーに収束する。
論文 参考訳(メタデータ) (2022-05-10T10:33:11Z) - Determination of class-specific variables in nonparametric
multiple-class classification [0.0]
確率に基づく非パラメトリックな多重クラス分類法を提案し、それを個々のクラスに対して高い影響変数を識別する能力と統合する。
提案手法の特性を報告し, 合成データと実データの両方を用いて, 異なる分類条件下での特性を説明する。
論文 参考訳(メタデータ) (2022-05-07T10:08:58Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Probabilistic Margins for Instance Reweighting in Adversarial Training [151.34753039197832]
本稿では,3種類の確率的マージン (PM) を提案し, 近さを計測し, 対向データを再重み付けする。
異なるPMは異なる幾何学的性質を捉えるが、3つのPMはいずれもデータの脆弱性と負の相関を持つ。
実験により、PMは信頼性の高い測定であり、PMに基づく再重み付け法は最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-06-15T06:37:55Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Variable Instance-Level Explainability for Text Classification [9.147707153504117]
本論文では,インスタンスレベルでの異なる特徴スコアリング手法を用いて変数長説明を抽出する手法を提案する。
本手法は,従来の固定長および固定長のスコアリング手法と比較して,より忠実な説明を提供する。
論文 参考訳(メタデータ) (2021-04-16T16:53:48Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Data Preprocessing to Mitigate Bias with Boosted Fair Mollifiers [104.90335702521378]
最近の論文で、Celisらは、データ分散自体を補正する公正性に対する新しいアプローチを導入した。
本稿では、プライバシで最近導入された数学的オブジェクト -- 分散のモリファイア -- と、マシンラーニングに対する一般的なアプローチ -- を活用して、強化する。
このアプローチは指数族の十分な統計学を学ぶことを伴う。
論文 参考訳(メタデータ) (2020-12-01T00:49:17Z) - Fast Uncertainty Quantification for Deep Object Pose Estimation [91.09217713805337]
深層学習に基づくオブジェクトポーズ推定は、しばしば信頼できない、自信過剰である。
本研究では,6-DoFオブジェクトのポーズ推定のための,シンプルで効率的かつプラグアンドプレイなUQ手法を提案する。
論文 参考訳(メタデータ) (2020-11-16T06:51:55Z) - Online Parameter-Free Learning of Multiple Low Variance Tasks [36.08679456245112]
低分散タスク列の増大に対して共通のバイアスベクトルを学習する手法を提案する。
我々のアプローチは統計的でない設定で示され、2つの変種から成り立つ。
実験により,本手法の有効性が確認された。
論文 参考訳(メタデータ) (2020-07-11T09:52:53Z) - Median regression with differential privacy [11.440028296972734]
第1のアルゴリズムは有限な滑らか化法に基づいており、第2のアルゴリズムは反復的な方法を提供し、最後のアルゴリズムはさらにグリーディ座標降下法を用いる。
これらのアルゴリズムの精度境界や収束特性も提供される。
論文 参考訳(メタデータ) (2020-06-04T16:14:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。