Fugu-MT 論文翻訳(概要): Imbalanced data preprocessing techniques utilizing local data characteristics

論文の概要: Imbalanced data preprocessing techniques utilizing local data characteristics

arxiv url: http://arxiv.org/abs/2111.14120v1
Date: Sun, 28 Nov 2021 11:48:26 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-30 17:30:36.328975
Title: Imbalanced data preprocessing techniques utilizing local data characteristics
Title（参考訳）: 局所データ特性を利用した不均衡データ前処理技術
Authors: Micha{\l} Koziarski
Abstract要約: データ不均衡は、異なるクラスから来るトレーニング観察の数の間の不均衡である。この論文の焦点は、新しいデータ再サンプリング戦略の開発である。
参考スコア（独自算出の注目度）: 2.28438857884398
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data imbalance, that is the disproportion between the number of training observations coming from different classes, remains one of the most significant challenges affecting contemporary machine learning. The negative impact of data imbalance on traditional classification algorithms can be reduced by the data preprocessing techniques, methods that manipulate the training data to artificially reduce the degree of imbalance. However, the existing data preprocessing techniques, in particular SMOTE and its derivatives, which constitute the most prevalent paradigm of imbalanced data preprocessing, tend to be susceptible to various data difficulty factors. This is in part due to the fact that the original SMOTE algorithm does not utilize the information about majority class observations. The focus of this thesis is development of novel data resampling strategies natively utilizing the information about the distribution of both minority and majority class. The thesis summarizes the content of 12 research papers focused on the proposed binary data resampling strategies, their translation to the multi-class setting, and the practical application to the problem of histopathological data classification.
Abstract（参考訳）: データ不均衡は、異なるクラスから来るトレーニング観察の数の違いであり、現代の機械学習に最も大きな課題の1つである。従来の分類アルゴリズムに対するデータ不均衡の負の影響は、データ前処理技術、トレーニングデータを操作して不均衡の程度を人工的に減少させる方法によって低減することができる。しかし、既存のデータ前処理技術、特に不均衡なデータ前処理のパラダイムであるSMOTEとそのデリバティブは、様々なデータ困難要因に影響を受けやすい傾向にある。これは、元のSMOTEアルゴリズムが多数クラスの観測情報を利用していないことによるものである。この論文の焦点は、少数派と多数派の双方の分布に関する情報をネイティブに活用する新しいデータ再サンプリング戦略の開発である。本論文は,提案する二分法データ再サンプリング戦略,多クラス化への翻訳,病理組織学的データ分類の実際的応用に焦点をあてた12の研究論文の内容を要約した。

関連論文リスト

Leveraging Semi-Supervised Learning to Enhance Data Mining for Image Classification under Limited Labeled Data [35.431340001608476]
従来のデータマイニング手法は、大規模で高次元で複雑なデータに直面すると不十分である。本研究では,ラベルのないデータを利用するアルゴリズムの能力向上を目的とした,半教師付き学習手法を提案する。具体的には、自己学習法を採用し、画像の特徴抽出と分類のための畳み込みニューラルネットワーク(CNN)と組み合わせる。
論文参考訳（メタデータ） (2024-11-27T18:59:50Z)
Differential Privacy Under Class Imbalance: Methods and Empirical Insights [11.378192651089359]
不均衡学習は、トレーニングデータにおいて、クラスラベルの分布が高度に歪められたときに起こる。我々は、クラス不均衡を低減するために、元のデータセットをプライベートに増強する事前処理方式のDP変種について検討する。また,不均衡を考慮した学習アルゴリズムを調整したインプロセッシング手法のDP変種についても検討する。各手法について,既存の不均衡学習手法をプライベート設定に適応させるか,差分プライバシーに適合しないことを示す。
論文参考訳（メタデータ） (2024-11-08T17:46:56Z)
Improving SMOTE via Fusing Conditional VAE for Data-adaptive Noise Filtering [0.5735035463793009]
変分オートエンコーダ(VAE)を用いたSMOTEアルゴリズムの拡張フレームワークを提案する。本稿では,VAEを用いて低次元潜在空間におけるデータ点密度を体系的に定量化し,クラスラベル情報と分類困難度を同時に統合する手法を提案する。いくつかの不均衡データセットに関する実証的研究は、この単純なプロセスが、ディープラーニングモデルよりも従来のSMOTEアルゴリズムを革新的に改善することを示している。
論文参考訳（メタデータ） (2024-05-30T07:06:02Z)
Few-shot learning for COVID-19 Chest X-Ray Classification with Imbalanced Data: An Inter vs. Intra Domain Study [49.5374512525016]
医療画像データセットは、コンピュータ支援診断、治療計画、医学研究に使用される訓練モデルに不可欠である。データ分散のばらつき、データの不足、ジェネリックイメージから事前トレーニングされたモデルを使用する場合の転送学習の問題などである。本稿では,データ不足と分散不均衡の影響を軽減するために,一連の手法を統合したシームズニューラルネットワークに基づく手法を提案する。
論文参考訳（メタデータ） (2024-01-18T16:59:27Z)
A Pretrainer's Guide to Training Data: Measuring the Effects of Data Age, Domain Coverage, Quality, & Toxicity [84.6421260559093]
この研究は、テキスト事前学習に関する文書化されていない直観を検証、定量化、公開するための最大の実験である。以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
論文参考訳（メタデータ） (2023-05-22T15:57:53Z)
Is augmentation effective to improve prediction in imbalanced text datasets? [3.1690891866882236]
データ拡張なしでカットオフを調整することは、オーバーサンプリング手法と同じような結果をもたらすと我々は主張する。この結果は、不均衡なデータを扱うための様々なアプローチの長所と短所の理解に寄与する。
論文参考訳（メタデータ） (2023-04-20T13:07:31Z)
On-the-fly Denoising for Data Augmentation in Natural Language Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文参考訳（メタデータ） (2022-12-20T18:58:33Z)
Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文参考訳（メタデータ） (2022-10-17T05:40:13Z)
An Empirical Analysis of the Efficacy of Different Sampling Techniques for Imbalanced Classification [0.0]
実世界のデータセットにおける不均衡の頻度は、クラス不均衡問題に対する様々な戦略の創出につながっている。標準分類アルゴリズムは、不均衡なデータで訓練された場合、性能が良くない傾向にある。そこで本研究では,26種類のサンプリング手法を網羅的に分析し,不均衡なデータを扱う上での有効性について考察する。
論文参考訳（メタデータ） (2022-08-25T03:45:34Z)
Imbalanced Classification via Explicit Gradient Learning From Augmented Data [0.0]
本稿では、与えられた不均衡なデータセットを新しいマイノリティインスタンスに拡張する、新しい深層メタラーニング手法を提案する。提案手法の利点は, 種々の不均衡比を持つ合成および実世界のデータセット上で実証される。
論文参考訳（メタデータ） (2022-02-21T22:16:50Z)
CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文参考訳（メタデータ） (2022-02-11T13:49:51Z)
Selecting the suitable resampling strategy for imbalanced data classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文参考訳（メタデータ） (2021-12-15T18:56:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。