論文の概要: Model-independent variable selection via the rule-based variable priority
- arxiv url: http://arxiv.org/abs/2409.09003v2
- Date: Mon, 16 Sep 2024 17:34:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 12:21:17.098848
- Title: Model-independent variable selection via the rule-based variable priority
- Title(参考訳): 規則に基づく変数優先度によるモデル独立変数選択
- Authors: Min Lu, Hemant Ishwaran,
- Abstract要約: モデルに依存しない新しいアプローチである可変優先度(VarPro)を導入する。
VarProは、人工データを生成したり、予測エラーを評価することなく、ルールを活用する。
VarProはノイズ変数に対して一貫したフィルタリング特性を持つことを示す。
- 参考スコア(独自算出の注目度): 1.2771542695459488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While achieving high prediction accuracy is a fundamental goal in machine learning, an equally important task is finding a small number of features with high explanatory power. One popular selection technique is permutation importance, which assesses a variable's impact by measuring the change in prediction error after permuting the variable. However, this can be problematic due to the need to create artificial data, a problem shared by other methods as well. Another problem is that variable selection methods can be limited by being model-specific. We introduce a new model-independent approach, Variable Priority (VarPro), which works by utilizing rules without the need to generate artificial data or evaluate prediction error. The method is relatively easy to use, requiring only the calculation of sample averages of simple statistics, and can be applied to many data settings, including regression, classification, and survival. We investigate the asymptotic properties of VarPro and show, among other things, that VarPro has a consistent filtering property for noise variables. Empirical studies using synthetic and real-world data show the method achieves a balanced performance and compares favorably to many state-of-the-art procedures currently used for variable selection.
- Abstract(参考訳): 高い予測精度を達成することが機械学習の基本的な目標であるが、同様に重要なタスクは、説明力の高い少数の機能を見つけることである。
これは、変数の置換後の予測誤差の変化を測定することで、変数の影響を評価するものである。
しかし、これは、他の方法によって共有される問題である人工データを作成する必要があるため、問題となる可能性がある。
もう1つの問題は、変数選択法がモデル固有性によって制限されることである。
モデルに依存しない新たなアプローチである可変優先度(VarPro)を導入し,人工データの生成や予測誤差の評価を必要とせずにルールを活用する。
この手法は比較的使いやすく、単純な統計値のサンプル平均の計算しか必要とせず、回帰、分類、生存を含む多くのデータ設定に適用できる。
本稿では、VarProの漸近特性について検討し、VarProがノイズ変数に対して一貫したフィルタリング特性を有することを示す。
合成および実世界のデータを用いた実証研究は、この手法がバランスの取れた性能を達成し、可変選択に現在使われている多くの最先端の手順と好意的に比較していることを示している。
関連論文リスト
- Fractional Naive Bayes (FNB): non-convex optimization for a parsimonious weighted selective naive Bayes classifier [0.0]
非常に多数の入力変数を持つデータセットの分類を監督した。
本稿では,このモデルを用いたBalihoodの正規化を提案する。
提案したアルゴリズムは最適化に基づく重み付けNa"iveesスキームをもたらす。
論文 参考訳(メタデータ) (2024-09-17T11:54:14Z) - Conformalization of Sparse Generalized Linear Models [2.1485350418225244]
等角予測法は、任意の有限サンプルサイズに対して有効である$y_n+1$の信頼セットを推定する。
魅力的ではあるが、そのような集合の計算は多くの回帰問題において計算不可能である。
経路追従アルゴリズムが共形予測集合を正確に近似する方法を示す。
論文 参考訳(メタデータ) (2023-07-11T08:36:12Z) - Adaptive Selection of the Optimal Strategy to Improve Precision and
Power in Randomized Trials [2.048226951354646]
精度を最大化するために、どの変数とどの形式で調整アプローチを選択するかを示す。
このアプローチは、(nullの下で)Type-Iエラー制御を維持し、精度を大幅に向上させる。
実データに適用すると、全体およびサブグループ内で有意義な効率改善が見られる。
論文 参考訳(メタデータ) (2022-10-31T16:25:38Z) - Predicting Out-of-Domain Generalization with Neighborhood Invariance [59.05399533508682]
局所変換近傍における分類器の出力不変性の尺度を提案する。
私たちの測度は計算が簡単で、テストポイントの真のラベルに依存しません。
画像分類,感情分析,自然言語推論のベンチマーク実験において,我々の測定値と実際のOOD一般化との間に強い相関関係を示す。
論文 参考訳(メタデータ) (2022-07-05T14:55:16Z) - Determination of class-specific variables in nonparametric
multiple-class classification [0.0]
確率に基づく非パラメトリックな多重クラス分類法を提案し、それを個々のクラスに対して高い影響変数を識別する能力と統合する。
提案手法の特性を報告し, 合成データと実データの両方を用いて, 異なる分類条件下での特性を説明する。
論文 参考訳(メタデータ) (2022-05-07T10:08:58Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Model-agnostic and Scalable Counterfactual Explanations via
Reinforcement Learning [0.5729426778193398]
本稿では,最適化手順をエンドツーエンドの学習プロセスに変換する深層強化学習手法を提案する。
実世界のデータを用いた実験により,本手法はモデルに依存しず,モデル予測からのフィードバックのみに依存することがわかった。
論文 参考訳(メタデータ) (2021-06-04T16:54:36Z) - Flexible Model Aggregation for Quantile Regression [92.63075261170302]
量子回帰は、予測の不確実性を定量化する必要性によって動機付けられた統計学習の基本的な問題である。
条件付き量子モデルの任意の数を集約する手法について検討する。
この論文で検討するモデルはすべて、現代のディープラーニングツールキットに適合します。
論文 参考訳(メタデータ) (2021-02-26T23:21:16Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。