論文の概要: Partial Resampling of Imbalanced Data
- arxiv url: http://arxiv.org/abs/2207.04631v1
- Date: Mon, 11 Jul 2022 05:09:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 15:20:03.438006
- Title: Partial Resampling of Imbalanced Data
- Title(参考訳): 不均衡データの部分再サンプリング
- Authors: Firuz Kamalov, Amir F. Atiya, Dina Elreedy
- Abstract要約: 10種類の一般的なサンプリング手法を検討し,その性能を20個のデータセットに基づいて評価する。
数値実験の結果、最適なサンプリング比は0.7から0.8の間であることが示唆された。
最適比を決定する上で,元の不均衡比や特徴数といった要因は明確な役割を果たさないが,データセット内のサンプル数には有意な影響があることが判明した。
- 参考スコア(独自算出の注目度): 5.8010446129208155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imbalanced data is a frequently encountered problem in machine learning.
Despite a vast amount of literature on sampling techniques for imbalanced data,
there is a limited number of studies that address the issue of the optimal
sampling ratio. In this paper, we attempt to fill the gap in the literature by
conducting a large scale study of the effects of sampling ratio on
classification accuracy. We consider 10 popular sampling methods and evaluate
their performance over a range of ratios based on 20 datasets. The results of
the numerical experiments suggest that the optimal sampling ratio is between
0.7 and 0.8 albeit the exact ratio varies depending on the dataset.
Furthermore, we find that while factors such the original imbalance ratio or
the number of features do not play a discernible role in determining the
optimal ratio, the number of samples in the dataset may have a tangible effect.
- Abstract(参考訳): 不均衡データは機械学習で頻繁に発生する問題である。
不均衡データのサンプリング技術に関する多くの文献があるが、最適なサンプリング比の問題に対処する研究は限られている。
本稿では,サンプリング比が分類精度に与える影響を大規模に研究し,文献のギャップを埋めようとしている。
一般的なサンプリング手法を10種類検討し,20種類のデータセットに基づく評価を行った。
数値実験の結果、最適なサンプリング比は0.7から0.8であり、正確な比率はデータセットによって異なることが示唆された。
さらに, 最適比を決定する上で, 元の不均衡比や特徴数などの要因が明確な役割を果たさないのに対して, データセット内のサンプル数には有意な効果が生じる可能性がある。
関連論文リスト
- On the Influence of Data Resampling for Deep Learning-Based Log Anomaly Detection: Insights and Recommendations [10.931620604044486]
本研究は,多様なデータ再サンプリング手法が既存のADアプローチに与える影響を詳細に分析する。
クラス不均衡のレベルが異なる4つのデータセットにまたがるこれらのADアプローチの性能を評価する。
正常なデータと異常なデータの最適な再サンプリング率を利用する際のデータ再サンプリング手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-05-06T14:01:05Z) - Benchmark Transparency: Measuring the Impact of Data on Evaluation [6.307485015636125]
6つの異なる次元にまたがるデータポイント分布を自動計測するフレームワークを提案する。
データ分布が絶対値(Acc/F1)と相対値(Rank)モデルの性能にどの程度影響するかを測定するために,不均質な階層化サンプリングを用いる。
その結果,データの影響は統計的に有意であり,測定値の変更の影響よりも大きいことが判明した。
論文 参考訳(メタデータ) (2024-03-31T17:33:43Z) - Combining Observational and Randomized Data for Estimating Heterogeneous
Treatment Effects [82.20189909620899]
不均一な治療効果を推定することは、多くの領域において重要な問題である。
現在、現存するほとんどの作品は観測データにのみ依存している。
本稿では、大量の観測データと少量のランダム化データを組み合わせることで、不均一な処理効果を推定する。
論文 参考訳(メタデータ) (2022-02-25T18:59:54Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Nonuniform Negative Sampling and Log Odds Correction with Rare Events
Data [15.696653979226113]
不均衡なデータに対する非一様負サンプリングによるパラメータ推定の問題について検討する。
一般逆確率重み付き(IPW)推定器を導出し,その分散を最小化する最適なサンプリング確率を得る。
理論的および実証的な結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-10-25T15:37:22Z) - An Empirical Study on the Joint Impact of Feature Selection and Data
Resampling on Imbalance Classification [4.506770920842088]
本研究では,不均衡分類のための特徴選択とデータ再サンプリングの相乗性に着目した。
9つの特徴選択手法、クラス不均衡学習のための6つの再サンプリング手法、および3つのよく知られた分類アルゴリズムを用いて、52の公開データセットに対して多数の実験を行った。
論文 参考訳(メタデータ) (2021-09-01T06:01:51Z) - Rethinking InfoNCE: How Many Negative Samples Do You Need? [54.146208195806636]
半定量的理論フレームワークを用いて, InfoNCE に最適化された負のサンプル数について検討した。
トレーニングの有効性関数を最大化する$K$値を用いて,最適負サンプリング比を推定する。
論文 参考訳(メタデータ) (2021-05-27T08:38:29Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Two-Sample Testing on Ranked Preference Data and the Role of Modeling
Assumptions [57.77347280992548]
本稿では,ペアワイズ比較データとランキングデータのための2サンプル試験を設計する。
私たちのテストでは、基本的に分布に関する仮定は必要ありません。
実世界のペアワイズ比較データに2サンプルテストを適用することで、人によって提供される評価とランキングは、実際は異なる分散である、と結論付ける。
論文 参考訳(メタデータ) (2020-06-21T20:51:09Z) - Compressing Large Sample Data for Discriminant Analysis [78.12073412066698]
判別分析フレームワーク内での大きなサンプルサイズに起因する計算問題を考察する。
線形および二次判別分析のためのトレーニングサンプル数を削減するための新しい圧縮手法を提案する。
論文 参考訳(メタデータ) (2020-05-08T05:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。