論文の概要: An empirical evaluation of imbalanced data strategies from a
practitioner's point of view
- arxiv url: http://arxiv.org/abs/1810.07168v2
- Date: Fri, 10 Nov 2023 15:54:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 18:51:10.622591
- Title: An empirical evaluation of imbalanced data strategies from a
practitioner's point of view
- Title(参考訳): 実践者の視点からみた不均衡データ戦略の実証的評価
- Authors: Jacques Wainer
- Abstract要約: 本稿では, オーバーサンプリング, アンサンブル, アンサンブル法, 特殊アルゴリズム, クラス重み調整, 無緩和アプローチの6つの手法について検討する。
これらの戦略は、58個の実生活のバイナリ不均衡データセットでテストされ、不均衡率は3から120である。
- 参考スコア(独自算出の注目度): 1.9580473532948401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper evaluates six strategies for mitigating imbalanced data:
oversampling, undersampling, ensemble methods, specialized algorithms, class
weight adjustments, and a no-mitigation approach referred to as the baseline.
These strategies were tested on 58 real-life binary imbalanced datasets with
imbalance rates ranging from 3 to 120. We conducted a comparative analysis of
10 under-sampling algorithms, 5 over-sampling algorithms, 2 ensemble methods,
and 3 specialized algorithms across eight different performance metrics:
accuracy, area under the ROC curve (AUC), balanced accuracy, F1-measure,
G-mean, Matthew's correlation coefficient, precision, and recall. Additionally,
we assessed the six strategies on altered datasets, derived from real-life
data, with both low (3) and high (100 or 300) imbalance ratios (IR).
The principal finding indicates that the effectiveness of each strategy
significantly varies depending on the metric used. The paper also examines a
selection of newer algorithms within the categories of specialized algorithms,
oversampling, and ensemble methods. The findings suggest that the current
hierarchy of best-performing strategies for each metric is unlikely to change
with the introduction of newer algorithms.
- Abstract(参考訳): 本稿では,アンサンブル法,特殊アルゴリズム,クラス重み調整法,およびベースラインと呼ばれる非緩和法という,不均衡データの緩和のための6つの戦略を評価する。
これらの戦略は、3から120までの不均衡率を持つ58のリアルタイムバイナリ不均衡データセットでテストされた。
我々は,10個のアンダーサンプリングアルゴリズム,5個のオーバーサンプリングアルゴリズム,2個のアンサンブル手法,および8つのパフォーマンス指標(精度,ROC曲線下面積,バランス精度,F1測定値,G平均値,Matthew相関係数,精度,リコール)を比較検討した。
さらに,実生活データから得られた変動データセットの6つの戦略を,低(3)と高(100,300)不均衡比(ir)の両方で評価した。
主要な発見は、各戦略の有効性が使用される指標によって大きく異なることを示している。
また、特殊アルゴリズム、オーバーサンプリング、アンサンブル手法のカテゴリにおける新しいアルゴリズムの選択についても検討する。
この結果から,新しいアルゴリズムの導入により,各指標に対する最良性能戦略の現在の階層構造は変化しない可能性が示唆された。
関連論文リスト
- Aioli: A Unified Optimization Framework for Language Model Data Mixing [74.50480703834508]
既存の手法では、グループごとの平均的なテストパープレキシティにおいて、単純な階層化サンプリングベースラインを一貫して上回る結果が得られない。
我々は、Aioliという新しいオンライン手法を導き、トレーニング全体を通して法パラメータの混合を直接推定し、それらを用いて比率を動的に調整する。
論文 参考訳(メタデータ) (2024-11-08T17:50:24Z) - Balancing the Scales: A Comprehensive Study on Tackling Class Imbalance in Binary Classification [0.8287206589886881]
本研究は、クラス不均衡を扱うために広く利用されている3つの戦略を包括的に評価する。
これらの手法を、15種類の機械学習モデルにまたがる非干渉のベースラインシナリオと比較する。
以上の結果から,3つの戦略がすべてベースラインを上回り,決定閾値が最も一貫して有効な手法として出現することが示唆された。
論文 参考訳(メタデータ) (2024-09-29T16:02:32Z) - Quantized Hierarchical Federated Learning: A Robust Approach to
Statistical Heterogeneity [3.8798345704175534]
本稿では,コミュニケーション効率に量子化を組み込んだ新しい階層型フェデレーション学習アルゴリズムを提案する。
最適性ギャップと収束率を評価するための包括的な分析フレームワークを提供する。
この結果から,本アルゴリズムはパラメータの範囲で常に高い学習精度を達成できることが判明した。
論文 参考訳(メタデータ) (2024-03-03T15:40:24Z) - From Variability to Stability: Advancing RecSys Benchmarking Practices [3.3331198926331784]
本稿では,RecSysアルゴリズムの公平かつ堅牢な比較を容易にするため,新しいベンチマーク手法を提案する。
本研究で導入された2つを含む30ドルのオープンデータセットの多種多様なセットを利用することで、データセット特性がアルゴリズム性能に与える影響を批判的に検証する。
論文 参考訳(メタデータ) (2024-02-15T07:35:52Z) - An Empirical Analysis of the Efficacy of Different Sampling Techniques
for Imbalanced Classification [0.0]
実世界のデータセットにおける不均衡の頻度は、クラス不均衡問題に対する様々な戦略の創出につながっている。
標準分類アルゴリズムは、不均衡なデータで訓練された場合、性能が良くない傾向にある。
そこで本研究では,26種類のサンプリング手法を網羅的に分析し,不均衡なデータを扱う上での有効性について考察する。
論文 参考訳(メタデータ) (2022-08-25T03:45:34Z) - Regularization Penalty Optimization for Addressing Data Quality Variance
in OoD Algorithms [45.02465532852302]
理論的には、トレーニングデータ品質とアルゴリズム性能の関係を明らかにする。
サンプルレベルとドメインレベルの両方において、低品質データの影響を軽減するために、新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-12T14:36:04Z) - A Priori Denoising Strategies for Sparse Identification of Nonlinear
Dynamical Systems: A Comparative Study [68.8204255655161]
本研究では, 局所的およびグローバルな平滑化手法の性能と, 状態測定値の偏差について検討・比較する。
一般に,測度データセット全体を用いたグローバルな手法は,局所点の周辺に隣接するデータサブセットを用いる局所的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-01-29T23:31:25Z) - Amortized Implicit Differentiation for Stochastic Bilevel Optimization [53.12363770169761]
決定論的条件と決定論的条件の両方において、二段階最適化問題を解決するアルゴリズムのクラスについて検討する。
厳密な勾配の推定を補正するために、ウォームスタート戦略を利用する。
このフレームワークを用いることで、これらのアルゴリズムは勾配の偏りのない推定値にアクセス可能な手法の計算複雑性と一致することを示す。
論文 参考訳(メタデータ) (2021-11-29T15:10:09Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。