論文の概要: Experimenting with an Evaluation Framework for Imbalanced Data Learning
(EFIDL)
- arxiv url: http://arxiv.org/abs/2301.10888v1
- Date: Thu, 26 Jan 2023 01:16:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-27 14:37:26.354298
- Title: Experimenting with an Evaluation Framework for Imbalanced Data Learning
(EFIDL)
- Title(参考訳): 不均衡データ学習評価フレームワーク(EFIDL)による実験
- Authors: Chenyu Li, Xia Jiang
- Abstract要約: データ不均衡は,ラベルの少ないビッグデータ分析において重要な問題のひとつだ。
機械学習アルゴリズムの性能を改善するために、多くのデータバランス法が導入された。
我々は不均衡なデータ学習のための新しい評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.010643838773477
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Introduction Data imbalance is one of the crucial issues in big data analysis
with fewer labels. For example, in real-world healthcare data, spam detection
labels, and financial fraud detection datasets. Many data balance methods were
introduced to improve machine learning algorithms' performance. Research claims
SMOTE and SMOTE-based data-augmentation (generate new data points) methods
could improve algorithm performance. However, we found in many online
tutorials, the valuation methods were applied based on synthesized datasets
that introduced bias into the evaluation, and the performance got a false
improvement. In this study, we proposed, a new evaluation framework for
imbalanced data learning methods. We have experimented on five data balance
methods and whether the performance of algorithms will improve or not. Methods
We collected 8 imbalanced healthcare datasets with different imbalanced rates
from different domains. Applied 6 data augmentation methods with 11 machine
learning methods testing if the data augmentation will help with improving
machine learning performance. We compared the traditional data augmentation
evaluation methods with our proposed cross-validation evaluation framework
Results Using traditional data augmentation evaluation meta hods will give a
false impression of improving the performance. However, our proposed evaluation
method shows data augmentation has limited ability to improve the results.
Conclusion EFIDL is more suitable for evaluating the prediction performance of
an ML method when data are augmented. Using an unsuitable evaluation framework
will give false results. Future researchers should consider the evaluation
framework we proposed when dealing with augmented datasets. Our experiments
showed data augmentation does not help improve ML prediction performance.
- Abstract(参考訳): データ不均衡は,ラベルの少ないビッグデータ分析において重要な問題のひとつだ。
例えば、現実世界の医療データ、スパム検出ラベル、金融詐欺検出データセットなどです。
機械学習アルゴリズムの性能を改善するために、多くのデータバランス手法が導入された。
研究によると、SMOTEとSMOTEベースのデータ拡張(新しいデータポイントの生成)手法はアルゴリズムの性能を向上させる。
しかし、多くのオンラインチュートリアルでは、評価にバイアスをもたらす合成データセットに基づいて評価方法が適用され、パフォーマンスが誤って改善されていることがわかった。
本研究では,不均衡なデータ学習手法のための新しい評価フレームワークを提案する。
我々は5つのデータバランス手法とアルゴリズムの性能が改善されるかどうかを実験した。
方法 異なる領域の異なる不均衡率を持つ8つの不均衡な医療データセットを収集した。
適用された6つのデータ拡張方法 11の機械学習方法 データ拡張が機械学習のパフォーマンスを改善するのに役立つかどうかをテストする。
本稿では,従来のデータ拡張評価手法と,従来のデータ拡張評価メタホッドを用いたクロスバリデーション評価フレームワークの結果を比較し,性能改善の誤った印象を与える。
しかし,提案手法は,データ拡張が結果を改善する能力に限界があることを示す。
結論 EFIDL はデータ拡張時のML法の予測性能を評価するのにより適している。
不適切な評価フレームワークを使用することで、誤った結果が得られる。
今後の研究者は、拡張データセットを扱う際に提案する評価フレームワークを検討するべきである。
実験の結果,データ拡張はML予測性能の向上に寄与しないことがわかった。
関連論文リスト
- What is Your Data Worth to GPT? LLM-Scale Data Valuation with Influence Functions [34.99034454081842]
大規模な言語モデル(LLM)は、膨大な量の人間が書いたデータに基づいて訓練されているが、データプロバイダはしばしば信頼できないままである。
本研究では,勾配に基づくデータ評価手法であるインフルエンス関数に着目し,その拡張性を大幅に改善する。
既存のトレーニングコードを最小限の労力でデータバリュエーションコードに変換するソフトウェアパッケージであるLogIXも導入しています。
論文 参考訳(メタデータ) (2024-05-22T19:39:05Z) - Neural Dynamic Data Valuation [4.286118155737111]
ニューラルダイナミックデータ評価(NDDV)という最適制御の観点から,新しいデータ評価手法を提案する。
本手法は,データ最適制御状態の感度を用いて,データ評価を正確に識別する理論的解釈を持つ。
さらに,データポイントのユニークな特徴を捉え,データポイントと平均場状態の相互作用による公平性を確保するために,データ再重み付け戦略を実装した。
論文 参考訳(メタデータ) (2024-04-30T13:39:26Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - A review of ensemble learning and data augmentation models for class
imbalanced problems: combination, implementation and evaluation [0.196629787330046]
分類問題におけるクラス不均衡 (CI) は、あるクラスに属する観測回数が他のクラスよりも低い場合に生じる。
本稿では,ベンチマークCI問題に対処するために使用されるデータ拡張とアンサンブル学習手法を評価する。
論文 参考訳(メタデータ) (2023-04-06T04:37:10Z) - Revisiting Long-tailed Image Classification: Survey and Benchmarks with
New Evaluation Metrics [88.39382177059747]
メトリクスのコーパスは、長い尾の分布で学習するアルゴリズムの正確性、堅牢性、およびバウンダリを測定するために設計されている。
ベンチマークに基づいて,CIFAR10およびCIFAR100データセット上での既存手法の性能を再評価する。
論文 参考訳(メタデータ) (2023-02-03T02:40:54Z) - Augmentation-Aware Self-Supervision for Data-Efficient GAN Training [68.81471633374393]
識別器が過度に適合する傾向があるため、限られたデータでGANを訓練することは困難である。
本稿では,拡張データの拡張パラメータを予測する,拡張型自己教師型識別器を提案する。
本稿では,クラス条件の BigGAN と非条件の StyleGAN2 アーキテクチャを用いた State-of-the-art (SOTA) 手法と比較する。
論文 参考訳(メタデータ) (2022-05-31T10:35:55Z) - Invariance Learning in Deep Neural Networks with Differentiable Laplace
Approximations [76.82124752950148]
我々はデータ拡張を選択するための便利な勾配法を開発した。
我々はKronecker-factored Laplace近似を我々の目的とする限界確率に近似する。
論文 参考訳(メタデータ) (2022-02-22T02:51:11Z) - Data-Centric Machine Learning in the Legal Domain [0.2624902795082451]
本稿では,データセットの変化がモデルの性能に与える影響について考察する。
法律ドメインから公開されている3つのデータセットを用いて,そのサイズ,列車/テストの分割,および人間のラベル付け精度がパフォーマンスに与える影響について検討する。
観察された効果は、特にクラスごとのパフォーマンスを考慮した場合、驚くほど顕著である。
論文 参考訳(メタデータ) (2022-01-17T23:05:14Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。