論文の概要: Imbalanced data preprocessing techniques utilizing local data
characteristics
- arxiv url: http://arxiv.org/abs/2111.14120v1
- Date: Sun, 28 Nov 2021 11:48:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 17:30:36.328975
- Title: Imbalanced data preprocessing techniques utilizing local data
characteristics
- Title(参考訳): 局所データ特性を利用した不均衡データ前処理技術
- Authors: Micha{\l} Koziarski
- Abstract要約: データ不均衡は、異なるクラスから来るトレーニング観察の数の間の不均衡である。
この論文の焦点は、新しいデータ再サンプリング戦略の開発である。
- 参考スコア(独自算出の注目度): 2.28438857884398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data imbalance, that is the disproportion between the number of training
observations coming from different classes, remains one of the most significant
challenges affecting contemporary machine learning. The negative impact of data
imbalance on traditional classification algorithms can be reduced by the data
preprocessing techniques, methods that manipulate the training data to
artificially reduce the degree of imbalance. However, the existing data
preprocessing techniques, in particular SMOTE and its derivatives, which
constitute the most prevalent paradigm of imbalanced data preprocessing, tend
to be susceptible to various data difficulty factors. This is in part due to
the fact that the original SMOTE algorithm does not utilize the information
about majority class observations. The focus of this thesis is development of
novel data resampling strategies natively utilizing the information about the
distribution of both minority and majority class. The thesis summarizes the
content of 12 research papers focused on the proposed binary data resampling
strategies, their translation to the multi-class setting, and the practical
application to the problem of histopathological data classification.
- Abstract(参考訳): データ不均衡は、異なるクラスから来るトレーニング観察の数の違いであり、現代の機械学習に最も大きな課題の1つである。
従来の分類アルゴリズムに対するデータ不均衡の負の影響は、データ前処理技術、トレーニングデータを操作して不均衡の程度を人工的に減少させる方法によって低減することができる。
しかし、既存のデータ前処理技術、特に不均衡なデータ前処理のパラダイムであるSMOTEとそのデリバティブは、様々なデータ困難要因に影響を受けやすい傾向にある。
これは、元のSMOTEアルゴリズムが多数クラスの観測情報を利用していないことによるものである。
この論文の焦点は、少数派と多数派の双方の分布に関する情報をネイティブに活用する新しいデータ再サンプリング戦略の開発である。
本論文は,提案する二分法データ再サンプリング戦略,多クラス化への翻訳,病理組織学的データ分類の実際的応用に焦点をあてた12の研究論文の内容を要約した。
関連論文リスト
- Improving SMOTE via Fusing Conditional VAE for Data-adaptive Noise Filtering [0.5735035463793009]
変分オートエンコーダ(VAE)を用いたSMOTEアルゴリズムの拡張フレームワークを提案する。
本稿では,VAEを用いて低次元潜在空間におけるデータ点密度を体系的に定量化し,クラスラベル情報と分類困難度を同時に統合する手法を提案する。
いくつかの不均衡データセットに関する実証的研究は、この単純なプロセスが、ディープラーニングモデルよりも従来のSMOTEアルゴリズムを革新的に改善することを示している。
論文 参考訳(メタデータ) (2024-05-30T07:06:02Z) - Few-shot learning for COVID-19 Chest X-Ray Classification with
Imbalanced Data: An Inter vs. Intra Domain Study [49.5374512525016]
医療画像データセットは、コンピュータ支援診断、治療計画、医学研究に使用される訓練モデルに不可欠である。
データ分散のばらつき、データの不足、ジェネリックイメージから事前トレーニングされたモデルを使用する場合の転送学習の問題などである。
本稿では,データ不足と分散不均衡の影響を軽減するために,一連の手法を統合したシームズニューラルネットワークに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T16:59:27Z) - A Pretrainer's Guide to Training Data: Measuring the Effects of Data
Age, Domain Coverage, Quality, & Toxicity [84.6421260559093]
この研究は、テキスト事前学習に関する文書化されていない直観を検証、定量化、公開するための最大の実験である。
以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
論文 参考訳(メタデータ) (2023-05-22T15:57:53Z) - Is augmentation effective to improve prediction in imbalanced text
datasets? [3.1690891866882236]
データ拡張なしでカットオフを調整することは、オーバーサンプリング手法と同じような結果をもたらすと我々は主張する。
この結果は、不均衡なデータを扱うための様々なアプローチの長所と短所の理解に寄与する。
論文 参考訳(メタデータ) (2023-04-20T13:07:31Z) - On-the-fly Denoising for Data Augmentation in Natural Language
Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。
本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2022-12-20T18:58:33Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - An Empirical Analysis of the Efficacy of Different Sampling Techniques
for Imbalanced Classification [0.0]
実世界のデータセットにおける不均衡の頻度は、クラス不均衡問題に対する様々な戦略の創出につながっている。
標準分類アルゴリズムは、不均衡なデータで訓練された場合、性能が良くない傾向にある。
そこで本研究では,26種類のサンプリング手法を網羅的に分析し,不均衡なデータを扱う上での有効性について考察する。
論文 参考訳(メタデータ) (2022-08-25T03:45:34Z) - Imbalanced Classification via Explicit Gradient Learning From Augmented
Data [0.0]
本稿では、与えられた不均衡なデータセットを新しいマイノリティインスタンスに拡張する、新しい深層メタラーニング手法を提案する。
提案手法の利点は, 種々の不均衡比を持つ合成および実世界のデータセット上で実証される。
論文 参考訳(メタデータ) (2022-02-21T22:16:50Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Combined Cleaning and Resampling Algorithm for Multi-Class Imbalanced
Data with Label Noise [11.868507571027626]
本稿では,新しいオーバーサンプリング手法であるマルチクラス・コンバインド・クリーニングとリサンプリングのアルゴリズムを提案する。
提案手法は, オーバーサンプリングに適した領域をモデル化するためのエネルギーベース手法を用いて, SMOTEよりも小さな解離や外れ値の影響を受けない。
重なり合うクラス分布が学習アルゴリズムの性能に与える影響を低減することを目的として, 同時クリーニング操作と組み合わせた。
論文 参考訳(メタデータ) (2020-04-07T13:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。