論文の概要: Explainable Global Error Weighted on Feature Importance: The xGEWFI
metric to evaluate the error of data imputation and data augmentation
- arxiv url: http://arxiv.org/abs/2206.08980v1
- Date: Fri, 17 Jun 2022 19:22:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 17:35:25.173904
- Title: Explainable Global Error Weighted on Feature Importance: The xGEWFI
metric to evaluate the error of data imputation and data augmentation
- Title(参考訳): 特徴量に重きを置く説明可能なグローバルエラー:データインプテーションとデータ拡張の誤差を評価するためのxgewfiメトリック
- Authors: Jean-S\'ebastien Dessureault and Daniel Massicotte
- Abstract要約: 本稿では,「特徴重み付け可能なグローバルエラー重み付け(xGEWFI)」という新しい指標を提案する。
元のデータと生成されたデータの分布誤差は、各特徴についてコルモゴロフ・スミルノフテスト(KSテスト)を用いて計算する。
計量結果は、倫理的AIを目的とした説明可能な形式で表現される。
- 参考スコア(独自算出の注目度): 1.827510863075184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating the performance of an algorithm is crucial. Evaluating the
performance of data imputation and data augmentation can be similar since both
generated data can be compared with an original distribution. Although, the
typical evaluation metrics have the same flaw: They calculate the feature's
error and the global error on the generated data without weighting the error
with the feature importance. The result can be good if all of the feature's
importance is similar. However, in most cases, the importance of the features
is imbalanced, and it can induce an important bias on the features and global
errors. This paper proposes a novel metric named "Explainable Global Error
Weighted on Feature Importance"(xGEWFI). This new metric is tested in a whole
preprocessing method that 1. detects the outliers and replaces them with a null
value. 2. imputes the data missing, and 3. augments the data. At the end of the
process, the xGEWFI error is calculated. The distribution error between the
original and generated data is calculated using a Kolmogorov-Smirnov test (KS
test) for each feature. Those results are multiplied by the importance of the
respective features, calculated using a Random Forest (RF) algorithm. The
metric result is expressed in an explainable format, aiming for an ethical AI.
- Abstract(参考訳): アルゴリズムの性能を評価することが重要である。
両方の生成されたデータを元の分布と比較できるため、データインプテーションとデータ拡張の性能の評価は似ている。
しかし、典型的な評価基準には、同じ欠陥がある。それらは、機能の重要性でエラーを重み付けすることなく、生成したデータの機能エラーとグローバルエラーを計算する。
機能の重要性がすべて同じであれば、結果はよいでしょう。
しかし、ほとんどの場合、機能の重要性は不均衡であり、機能とグローバルなエラーに重要なバイアスを生じさせる可能性がある。
本稿では,"Explainable Global Error Weighted on Feature Importance"(xGEWFI)という新しい指標を提案する。
この新しい計量は、前処理の全体でテストされる
1. 外れ値を検出し、null値に置き換える。
2. データの欠落を暗示し、
3. データの強化。
プロセスの最後には、xGEWFIエラーが計算される。
各特徴に対してコルモゴロフ・スミルノフ検定(ks test)を用いて、原データと生成データの分配誤差を算出する。
これらの結果は、ランダムフォレスト(RF)アルゴリズムを用いて計算された各特徴の重要性によって乗じられる。
計量結果は、倫理的AIを目的とした説明可能な形式で表現される。
関連論文リスト
- Iterative missing value imputation based on feature importance [6.300806721275004]
我々は特徴量を考慮した計算手法を考案した。
このアルゴリズムは、反復的に行列補完と特徴重要学習を行い、具体的には、特徴重要度を含む充足損失に基づいて行列補完を行う。
これらのデータセットの結果は,提案手法が既存の5つの計算アルゴリズムより優れていることを一貫して示している。
論文 参考訳(メタデータ) (2023-11-14T09:03:33Z) - How Does Pseudo-Labeling Affect the Generalization Error of the
Semi-Supervised Gibbs Algorithm? [73.80001705134147]
擬似ラベル付き半教師付き学習(SSL)におけるGibsアルゴリズムによる予測一般化誤差(ゲンエラー)を正確に評価する。
ゲンエラーは、出力仮説、擬ラベルデータセット、ラベル付きデータセットの間の対称性付きKL情報によって表現される。
論文 参考訳(メタデータ) (2022-10-15T04:11:56Z) - A Computational Exploration of Emerging Methods of Variable Importance
Estimation [0.0]
変数の重要性を推定することは、現代の機械学習において必須のタスクである。
本稿では,変数重要度推定の新しい手法の計算的および理論的検討を提案する。
この結果から,PERFは相関性の高いデータでは最高の性能を示した。
論文 参考訳(メタデータ) (2022-08-05T20:00:56Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - Active-LATHE: An Active Learning Algorithm for Boosting the Error
Exponent for Learning Homogeneous Ising Trees [75.93186954061943]
我々は、$rho$が少なくとも0.8$である場合に、エラー指数を少なくとも40%向上させるアルゴリズムを設計し、分析する。
我々の分析は、グラフの一部により多くのデータを割り当てるために、微小だが検出可能なサンプルの統計的変動を巧みに活用することに基づいている。
論文 参考訳(メタデータ) (2021-10-27T10:45:21Z) - Evaluating State-of-the-Art Classification Models Against Bayes
Optimality [106.50867011164584]
正規化フローを用いて学習した生成モデルのベイズ誤差を正確に計算できることを示す。
われわれの手法を用いて、最先端の分類モデルについて徹底的な調査を行う。
論文 参考訳(メタデータ) (2021-06-07T06:21:20Z) - A Novel Approach to Radiometric Identification [68.8204255655161]
本稿では,CAPoNeFの特徴工学的手法を用いて,高精度なラジオメトリック同定が可能であることを実証する。
SDRで収集した実験データに基づいて,基本的なML分類アルゴリズムを検証した。
論文 参考訳(メタデータ) (2020-12-02T10:54:44Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Matrix Completion with Quantified Uncertainty through Low Rank Gaussian
Copula [30.84155327760468]
本稿では,不確かさを定量化した値計算の欠如に対する枠組みを提案する。
モデルに適合するために必要な時間は、データセット内の行数や列数と線形にスケールする。
実験結果から,本手法は様々な種類のデータに対して最先端の計算精度が得られることがわかった。
論文 参考訳(メタデータ) (2020-06-18T19:51:42Z) - Establishing strong imputation performance of a denoising autoencoder in
a wide range of missing data problems [0.0]
トレーニングと計算の両方に一貫したフレームワークを開発します。
結果と最先端の計算手法を比較検討した。
開発されたオートエンコーダは、初期データ破損のあらゆる範囲において最小の誤差を得た。
論文 参考訳(メタデータ) (2020-04-06T12:00:30Z) - The Real-World-Weight Cross-Entropy Loss Function: Modeling the Costs of
Mislabeling [0.0]
実世界のクロスエントロピー損失関数を2値・1ラベルの分類変種に導入する。
どちらの変種も、現実世界のコストを重みとして直接入力することができる。
シングルラベル・マルチカテゴリ分類では、機械学習モデルのトレーニング中にラベルで重み付けされた確率的偽陽性の直接化も可能である。
論文 参考訳(メタデータ) (2020-01-03T08:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。