論文の概要: Partial Resampling of Imbalanced Data
- arxiv url: http://arxiv.org/abs/2207.04631v1
- Date: Mon, 11 Jul 2022 05:09:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 15:20:03.438006
- Title: Partial Resampling of Imbalanced Data
- Title(参考訳): 不均衡データの部分再サンプリング
- Authors: Firuz Kamalov, Amir F. Atiya, Dina Elreedy
- Abstract要約: 10種類の一般的なサンプリング手法を検討し,その性能を20個のデータセットに基づいて評価する。
数値実験の結果、最適なサンプリング比は0.7から0.8の間であることが示唆された。
最適比を決定する上で,元の不均衡比や特徴数といった要因は明確な役割を果たさないが,データセット内のサンプル数には有意な影響があることが判明した。
- 参考スコア(独自算出の注目度): 5.8010446129208155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imbalanced data is a frequently encountered problem in machine learning.
Despite a vast amount of literature on sampling techniques for imbalanced data,
there is a limited number of studies that address the issue of the optimal
sampling ratio. In this paper, we attempt to fill the gap in the literature by
conducting a large scale study of the effects of sampling ratio on
classification accuracy. We consider 10 popular sampling methods and evaluate
their performance over a range of ratios based on 20 datasets. The results of
the numerical experiments suggest that the optimal sampling ratio is between
0.7 and 0.8 albeit the exact ratio varies depending on the dataset.
Furthermore, we find that while factors such the original imbalance ratio or
the number of features do not play a discernible role in determining the
optimal ratio, the number of samples in the dataset may have a tangible effect.
- Abstract(参考訳): 不均衡データは機械学習で頻繁に発生する問題である。
不均衡データのサンプリング技術に関する多くの文献があるが、最適なサンプリング比の問題に対処する研究は限られている。
本稿では,サンプリング比が分類精度に与える影響を大規模に研究し,文献のギャップを埋めようとしている。
一般的なサンプリング手法を10種類検討し,20種類のデータセットに基づく評価を行った。
数値実験の結果、最適なサンプリング比は0.7から0.8であり、正確な比率はデータセットによって異なることが示唆された。
さらに, 最適比を決定する上で, 元の不均衡比や特徴数などの要因が明確な役割を果たさないのに対して, データセット内のサンプル数には有意な効果が生じる可能性がある。
関連論文リスト
- Mitigating Dataset Bias by Using Per-sample Gradient [9.290757451344673]
PGD(Per-sample Gradient-based Debiasing)は,一様バッチサンプリングによるモデルトレーニング,サンプル勾配の基準に比例して各サンプルの重要性の設定,重要バッチサンプリングを用いたモデルトレーニングの3段階からなる。
種々の合成および実世界のデータセットに対する既存のベースラインと比較して,本手法は分類タスクの最先端の精度を示した。
論文 参考訳(メタデータ) (2022-05-31T11:41:02Z) - Combining Observational and Randomized Data for Estimating Heterogeneous
Treatment Effects [82.20189909620899]
不均一な治療効果を推定することは、多くの領域において重要な問題である。
現在、現存するほとんどの作品は観測データにのみ依存している。
本稿では、大量の観測データと少量のランダム化データを組み合わせることで、不均一な処理効果を推定する。
論文 参考訳(メタデータ) (2022-02-25T18:59:54Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Nonuniform Negative Sampling and Log Odds Correction with Rare Events
Data [15.696653979226113]
不均衡なデータに対する非一様負サンプリングによるパラメータ推定の問題について検討する。
一般逆確率重み付き(IPW)推定器を導出し,その分散を最小化する最適なサンプリング確率を得る。
理論的および実証的な結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-10-25T15:37:22Z) - An Empirical Study on the Joint Impact of Feature Selection and Data
Resampling on Imbalance Classification [4.506770920842088]
本研究では,不均衡分類のための特徴選択とデータ再サンプリングの相乗性に着目した。
9つの特徴選択手法、クラス不均衡学習のための6つの再サンプリング手法、および3つのよく知られた分類アルゴリズムを用いて、52の公開データセットに対して多数の実験を行った。
論文 参考訳(メタデータ) (2021-09-01T06:01:51Z) - Rethinking InfoNCE: How Many Negative Samples Do You Need? [54.146208195806636]
半定量的理論フレームワークを用いて, InfoNCE に最適化された負のサンプル数について検討した。
トレーニングの有効性関数を最大化する$K$値を用いて,最適負サンプリング比を推定する。
論文 参考訳(メタデータ) (2021-05-27T08:38:29Z) - Why resampling outperforms reweighting for correcting sampling bias with
stochastic gradients [10.860844636412862]
バイアスデータセット上で機械学習モデルをトレーニングするには、バイアスを補うための補正テクニックが必要である。
我々は、目的関数を維持するためにサブグループの比率を再均衡させる2つの一般的な手法、再サンプリングと再重み付けについて検討する。
論文 参考訳(メタデータ) (2020-09-28T16:12:38Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Two-Sample Testing on Ranked Preference Data and the Role of Modeling
Assumptions [57.77347280992548]
本稿では,ペアワイズ比較データとランキングデータのための2サンプル試験を設計する。
私たちのテストでは、基本的に分布に関する仮定は必要ありません。
実世界のペアワイズ比較データに2サンプルテストを適用することで、人によって提供される評価とランキングは、実際は異なる分散である、と結論付ける。
論文 参考訳(メタデータ) (2020-06-21T20:51:09Z) - Compressing Large Sample Data for Discriminant Analysis [78.12073412066698]
判別分析フレームワーク内での大きなサンプルサイズに起因する計算問題を考察する。
線形および二次判別分析のためのトレーニングサンプル数を削減するための新しい圧縮手法を提案する。
論文 参考訳(メタデータ) (2020-05-08T05:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。