論文の概要: A Survey of Methods for Handling Disk Data Imbalance
- arxiv url: http://arxiv.org/abs/2310.08867v1
- Date: Fri, 13 Oct 2023 05:35:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 14:25:58.935384
- Title: A Survey of Methods for Handling Disk Data Imbalance
- Title(参考訳): ディスクデータ不均衡の処理方法に関する調査研究
- Authors: Shuangshuang Yuan, Peng Wu, Yuehui Chen and Qiang Li
- Abstract要約: 本稿では、不均衡データ分類の分野における研究の概要について概観する。
Backblazeデータセットは、ハードディスクに関連する広く使用されているデータセットであり、少量の障害データと大量の健康データを持ち、深刻なクラス不均衡を示す。
- 参考スコア(独自算出の注目度): 10.261915886145214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Class imbalance exists in many classification problems, and since the data is
designed for accuracy, imbalance in data classes can lead to classification
challenges with a few classes having higher misclassification costs. The
Backblaze dataset, a widely used dataset related to hard discs, has a small
amount of failure data and a large amount of health data, which exhibits a
serious class imbalance. This paper provides a comprehensive overview of
research in the field of imbalanced data classification. The discussion is
organized into three main aspects: data-level methods, algorithmic-level
methods, and hybrid methods. For each type of method, we summarize and analyze
the existing problems, algorithmic ideas, strengths, and weaknesses.
Additionally, the challenges of unbalanced data classification are discussed,
along with strategies to address them. It is convenient for researchers to
choose the appropriate method according to their needs.
- Abstract(参考訳): クラス不均衡は多くの分類問題に存在し、データは正確性のために設計されているため、データクラスの不均衡は分類上の問題を引き起こす可能性がある。
Backblazeデータセットは、ハードディスクに関連する広く使用されているデータセットであり、少量の障害データと大量の健康データを持ち、深刻なクラス不均衡を示す。
本稿では、不均衡データ分類分野の研究の概要について概観する。
この議論は、データレベルメソッド、アルゴリズムレベルメソッド、ハイブリッドメソッドの3つの主要な側面に分けられる。
それぞれの手法について,既存の問題,アルゴリズム的アイデア,強み,弱点を要約し,分析する。
さらに、不均衡なデータ分類の課題とそれに対処する戦略について論じる。
研究者が必要に応じて適切な方法を選択するのは便利です。
関連論文リスト
- A Survey of Deep Long-Tail Classification Advancements [1.6233132273470656]
実世界の多くのデータ分布は、ほとんど均一ではない。代わりに、様々な種類の歪んだ、長い尾の分布がよく見られる。
これは機械学習にとって興味深い問題であり、ほとんどのアルゴリズムが均一に分散されたデータを想定したり、うまく機能する。
この問題は、大量のトレーニングデータを必要とする現在の最先端のディープラーニングモデルによってさらに悪化している。
論文 参考訳(メタデータ) (2024-04-24T01:59:02Z) - Data-level hybrid strategy selection for disk fault prediction model
based on multivariate GAN [7.270429986841776]
データクラスの不均衡は、分類問題において一般的な問題であり、マイノリティクラスのサンプルは、しばしば誤分類するためにより重要でコストがかかる。
SMARTデータセットは、かなりの量の健康サンプルと比較的限られた数の欠陥サンプルからなる明らかなクラス不均衡を示す。
このデータセットは、ディスクの健康状態の信頼できる指標として機能する。
論文 参考訳(メタデータ) (2023-10-10T11:34:53Z) - Neural Collapse Terminus: A Unified Solution for Class Incremental
Learning and Its Variants [166.916517335816]
本稿では,3つの課題における不整合ジレンマに対する統一解を提案する。
ラベル空間全体の最大等角的クラス間分離を有する固定構造である神経崩壊終端を提案する。
本手法は,データ不均衡やデータ不足にかかわらず,神経崩壊最適度を漸進的に保持する。
論文 参考訳(メタデータ) (2023-08-03T13:09:59Z) - Revisiting Long-tailed Image Classification: Survey and Benchmarks with
New Evaluation Metrics [88.39382177059747]
メトリクスのコーパスは、長い尾の分布で学習するアルゴリズムの正確性、堅牢性、およびバウンダリを測定するために設計されている。
ベンチマークに基づいて,CIFAR10およびCIFAR100データセット上での既存手法の性能を再評価する。
論文 参考訳(メタデータ) (2023-02-03T02:40:54Z) - Balanced Split: A new train-test data splitting strategy for imbalanced
datasets [0.0]
ほとんどの機械学習アルゴリズムは、トレーニングデータセット内のすべてのクラスの等式を仮定して構築されているため、クラス不均衡は問題である。
本稿では,バランス分割と呼ばれる新たなデータ分割戦略により,クラス不均衡問題に対処する新しい方法を示す。
論文 参考訳(メタデータ) (2022-12-17T10:36:39Z) - A Survey of Methods for Addressing Class Imbalance in Deep-Learning
Based Natural Language Processing [68.37496795076203]
非バランスなデータを扱うNLP研究者や実践者に対してガイダンスを提供する。
まず、制御および実世界のクラス不均衡の様々なタイプについて論じる。
サンプリング,データ拡張,損失関数の選択,ステージ学習,モデル設計に基づく手法を整理する。
論文 参考訳(メタデータ) (2022-10-10T13:26:40Z) - A Hybrid Approach for Binary Classification of Imbalanced Data [0.0]
本稿では,データブロック構築,次元減少,アンサンブル学習を併用したハイブリットアプローチHADRを提案する。
我々は、8つの不均衡な公開データセットの性能をリコール、G平均、AUCで評価した。
論文 参考訳(メタデータ) (2022-07-06T15:18:41Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Long-Tailed Recognition Using Class-Balanced Experts [128.73438243408393]
本稿では,多様な分類器の強度を組み合わせたクラスバランスの専門家のアンサンブルを提案する。
私たちのクラスバランスの専門家のアンサンブルは、最先端に近い結果に到達し、長い尾の認識のための2つのベンチマークで新たな最先端のアンサンブルを確立します。
論文 参考訳(メタデータ) (2020-04-07T20:57:44Z) - Smart Data driven Decision Trees Ensemble Methodology for Imbalanced Big
Data [11.117880929232575]
MapReduceパラダイムの使用によるデータ戦略の分割とマイノリティクラスのデータの欠如は、不均衡なデータ問題に対処するための新たな課題を提起している。
スマートデータ(Smart Data)は、高性能なモデルを実現するのに十分な品質のデータを指す。
本稿では,ビッグデータ領域における不均衡な分類問題に対処するための,新しいSmart Data driven Decision Trees Ensemble法を提案する。
論文 参考訳(メタデータ) (2020-01-16T12:25:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。