論文の概要: A Computational Exploration of Emerging Methods of Variable Importance
Estimation
- arxiv url: http://arxiv.org/abs/2208.03373v1
- Date: Fri, 5 Aug 2022 20:00:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 12:33:19.285862
- Title: A Computational Exploration of Emerging Methods of Variable Importance
Estimation
- Title(参考訳): 多様な重要度推定の創発的手法の計算的探索
- Authors: Louis Mozart Kamdem and Ernest Fokoue
- Abstract要約: 変数の重要性を推定することは、現代の機械学習において必須のタスクである。
本稿では,変数重要度推定の新しい手法の計算的および理論的検討を提案する。
この結果から,PERFは相関性の高いデータでは最高の性能を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Estimating the importance of variables is an essential task in modern machine
learning. This help to evaluate the goodness of a feature in a given model.
Several techniques for estimating the importance of variables have been
developed during the last decade. In this paper, we proposed a computational
and theoretical exploration of the emerging methods of variable importance
estimation, namely: Least Absolute Shrinkage and Selection Operator (LASSO),
Support Vector Machine (SVM), the Predictive Error Function (PERF), Random
Forest (RF), and Extreme Gradient Boosting (XGBOOST) that were tested on
different kinds of real-life and simulated data. All these methods can handle
both regression and classification tasks seamlessly but all fail when it comes
to dealing with data containing missing values. The implementation has shown
that PERF has the best performance in the case of highly correlated data
closely followed by RF. PERF and XGBOOST are "data-hungry" methods, they had
the worst performance on small data sizes but they are the fastest when it
comes to the execution time. SVM is the most appropriate when many redundant
features are in the dataset. A surplus with the PERF is its natural cut-off at
zero helping to separate positive and negative scores with all positive scores
indicating essential and significant features while the negatives score
indicates useless features. RF and LASSO are very versatile in a way that they
can be used in almost all situations despite they are not giving the best
results.
- Abstract(参考訳): 変数の重要性を推定することは、現代の機械学習において不可欠なタスクである。
これは、あるモデルにおける機能の良さを評価するのに役立つ。
過去10年間に変数の重要性を推定するいくつかの技術が開発されてきた。
本稿では,多種多様な実生活・模擬データを用いて検証した変動重要度推定手法,すなわちLASSO(Least Absolute Shrinkage and Selection Operator),SVM(Support Vector Machine),PERF(Predictive Error Function),RF(Random Forest),XGBOOST(Extreme Gradient Boosting)の計算と理論的検討を行った。
これらのメソッドはすべて、回帰タスクと分類タスクの両方をシームレスに処理できるが、欠落した値を含むデータを扱う場合には、すべて失敗する。
その結果,高度に相関したデータにRFが追従する場合にはPERFが最も高い性能を示した。
PERFとXGBOOSTは"データハングリー(data-hungry)"メソッドで、小さなデータサイズではパフォーマンスが最悪でしたが、実行時間に関しては最速です。
SVMは、多くの冗長な機能がデータセットにある場合に最も適しています。
PERFの余剰は、ゼロでの自然なカットオフであり、すべての正と負のスコアが必須で重要な特徴を示す一方、負のスコアは役に立たない特徴を示す。
RFとLASSOは、最良の結果を提供していないにもかかわらず、ほぼ全ての状況で使用できるように、非常に多用途である。
関連論文リスト
- A Bio-Medical Snake Optimizer System Driven by Logarithmic Surviving Global Search for Optimizing Feature Selection and its application for Disorder Recognition [1.3755153408022656]
人間の生命を守ることがいかに重要かを考えると、医療実践を強化することが最重要である。
機械学習技術を用いて患者の予測を自動化することで、医療療法を加速することができる。
この分野における重要な任務のために、いくつかの前処理戦略を採用する必要がある。
論文 参考訳(メタデータ) (2024-02-22T09:08:18Z) - Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient Kernels [57.46832672991433]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。
カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。
我々は,効率的な後部推論と関数推定のための予測伝搬予測最大化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-09T03:55:09Z) - DataInf: Efficiently Estimating Data Influence in LoRA-tuned LLMs and
Diffusion Models [31.65198592956842]
本稿では,大規模生成AIモデルに有効な効率的な影響近似手法であるDataInfを提案する。
理論的解析により,DataInfはLoRAのようなパラメータ効率のよい微調整技術に特に適していることが示された。
RoBERTa-large、Llama-2-13B-chat、stable-diffusion-v1.5モデルへの適用において、DataInfは、他の近似影響スコアよりも、最も影響力のある微調整例を効果的に識別する。
論文 参考訳(メタデータ) (2023-10-02T04:59:19Z) - FAStEN: An Efficient Adaptive Method for Feature Selection and Estimation in High-Dimensional Functional Regressions [7.674715791336311]
本稿では,スパース関数オン・ファンクション回帰問題において特徴選択を行うための,新しい,柔軟な,超効率的なアプローチを提案する。
我々はそれをスカラー・オン・ファンクション・フレームワークに拡張する方法を示す。
AOMIC PIOP1による脳MRIデータへの応用について述べる。
論文 参考訳(メタデータ) (2023-03-26T19:41:17Z) - Model Optimization in Imbalanced Regression [2.580765958706854]
不均衡なドメイン学習は、あまり表現されていないがドメインにとって最も重要であるインスタンスを予測するための正確なモデルを作成することを目的としている。
主な理由の1つは、極端な(まれな)値の誤差を最小限に抑えることができる損失関数の欠如である。
最近、評価指標が導入された: 正方形誤差関連領域(SERA)
このメトリクスは、極端な値で犯したエラーに重点を置いていると同時に、ターゲット変数全体のパフォーマンスも考慮している。
論文 参考訳(メタデータ) (2022-06-20T20:23:56Z) - Primal Estimated Subgradient Solver for SVM for Imbalanced
Classification [0.0]
我々は,PEGASOS SVMが8.6:1から130:1までのマイノリティ比に大きく依存する不均衡データセットに対して,優れた性能を達成できることを実証することを目的とする。
学習曲線を調べて評価する。
PEGASOS Cost-Sensitive SVM's results of Ding's LINEAR SVM DECIDL method。
論文 参考訳(メタデータ) (2022-06-19T02:33:14Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Hyperparameter-free Continuous Learning for Domain Classification in
Natural Language Understanding [60.226644697970116]
ドメイン分類は自然言語理解(NLU)の基本課題である
既存の継続的な学習アプローチの多くは、低い精度とパフォーマンスの変動に悩まされている。
本研究では,テキストデータに対するパラメータフリー連続学習モデルを提案する。
論文 参考訳(メタデータ) (2022-01-05T02:46:16Z) - VSAC: Efficient and Accurate Estimator for H and F [68.65610177368617]
VSACはRANSAC型頑健な推定器であり、多くの新奇性がある。
従来のすべてのプロセッサよりも大幅に高速で、CPU上では平均1-2msで動作する。
現在最も正確な2次元幾何学推定器である MAGSAC++ と同等の精度で2桁高速である。
論文 参考訳(メタデータ) (2021-06-18T17:04:57Z) - Bayesian Optimization with Missing Inputs [53.476096769837724]
我々は、よく知られたアッパー信頼境界(UCB)獲得関数に基づく新たな獲得関数を開発する。
我々は,本手法の有用性を示すために,合成アプリケーションと実世界のアプリケーションの両方について包括的な実験を行った。
論文 参考訳(メタデータ) (2020-06-19T03:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。