論文の概要: Enhancement Encoding: A Novel Imbalanced Classification Approach via
Encoding the Training Labels
- arxiv url: http://arxiv.org/abs/2208.11056v2
- Date: Tue, 28 Mar 2023 12:04:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 19:45:15.971385
- Title: Enhancement Encoding: A Novel Imbalanced Classification Approach via
Encoding the Training Labels
- Title(参考訳): エンコード強化:トレーニングラベルのエンコードによる新しいアンバランスな分類手法
- Authors: Jia-Chen Zhao
- Abstract要約: クラス不均衡は、機械学習に基づく分類タスクにおいて一般的な問題である。
本稿では,不均衡な分類のために特別に設計されたエンハンスメント符号化手法を提案する。
その結果、エンハンスメント符号化は、不均衡なデータで訓練されたネットワークの性能を向上させるのに非常に効果的であることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Class imbalance, which is also called long-tailed distribution, is a common
problem in classification tasks based on machine learning. If it happens, the
minority data will be overwhelmed by the majority, which presents quite a
challenge for data science. To address the class imbalance problem, researchers
have proposed lots of methods: some people make the data set balanced (SMOTE),
some others refine the loss function (Focal Loss), and even someone has noticed
the value of labels influences class-imbalanced learning (Yang and Xu.
Rethinking the value of labels for improving class-imbalanced learning. In
NeurIPS 2020), but no one changes the way to encode the labels of data yet.
Nowadays, the most prevailing technique to encode labels is the one-hot
encoding due to its nice performance in the general situation. However, it is
not a good choice for imbalanced data, because the classifier will treat
majority and minority samples equally. In this paper, we innovatively propose
the enhancement encoding technique, which is specially designed for the
imbalanced classification. The enhancement encoding combines re-weighting and
cost-sensitiveness, which can reflect the difference between hard and easy (or
minority and majority) classes. To reduce the number of validation samples and
the computation cost, we also replace the confusion matrix with a novel
soft-confusion matrix which works better with a small validation set. In the
experiments, we evaluate the enhancement encoding with three different types of
loss. And the results show that enhancement encoding is very effective to
improve the performance of the network trained with imbalanced data.
Particularly, the performance on minority classes is much better.
- Abstract(参考訳): クラス不均衡(クラス不均衡)は、機械学習に基づく分類タスクにおいて一般的な問題である。
もしそうなれば、マイノリティデータは多数派に圧倒され、データサイエンスにとってかなりの課題となる。
クラス不均衡問題に対処するため、研究者は、データセットをバランスよくする(SMOTE)、損失関数を洗練させる(Focal Loss)、ラベルの価値がクラス不均衡学習に影響を与えることに気付いた(YangとXu)、といった方法も提案されている。また、クラス不均衡学習を改善するためのラベルの価値を再考する。NeurIPS 2020では、まだラベルをエンコードする方法は変更されていない。
現在、ラベルをエンコードする最も一般的なテクニックは、一般的な状況でパフォーマンスが良いため、ワンホットエンコーディングである。
しかし、分類器は多数派と少数派のサンプルを等しく扱うので、不均衡なデータには適さない。
本稿では,不均衡分類のために特別に設計されたエンハンスエンコーディング手法を革新的に提案する。
エンコーディングの強化は、再重み付けとコスト感受性を組み合わせることで、ハードクラスとマイノリティークラスの違いを反映することができる。
検証サンプルの数と計算コストを削減するため,より小さな検証セットでよりよく動作する新しいソフトコンフュージョンマトリックスを混同行列に置き換える。
実験では,3種類の損失を伴うエンハンスメント符号化の評価を行った。
また,エンハンスエンコーディングは,不均衡データでトレーニングしたネットワークの性能を向上させるのに非常に有効であることを示した。
特に、マイノリティクラスのパフォーマンスはずっと良いです。
関連論文リスト
- Open-World Semi-Supervised Learning for Node Classification [53.07866559269709]
ノード分類のためのオープンワールド半教師付き学習(Open World SSL)は、グラフコミュニティにおいて実用的だが未探索の課題である。
オープンワールド半教師付きノード分類のためのIM Balance-AwareメソッドOpenIMAを提案する。
論文 参考訳(メタデータ) (2024-03-18T05:12:54Z) - Exploring Vacant Classes in Label-Skewed Federated Learning [113.65301899666645]
クライアント間の局所的なラベル分布の相違を特徴とするラベルスキューは、連合学習において大きな課題となる。
本稿では, ラベルスキュード・フェデレート学習における新しい手法であるFedVLSについて紹介する。
論文 参考訳(メタデータ) (2024-01-04T16:06:31Z) - An Embarrassingly Simple Baseline for Imbalanced Semi-Supervised
Learning [103.65758569417702]
半教師付き学習(SSL)は、ラベルのないデータを活用してモデルのパフォーマンスを向上させるという大きな約束を示している。
我々は、ラベル付きデータとラベルなしデータの両方で不均衡なクラス分散が発生する不均衡SSLという、より現実的で困難な設定について検討する。
我々は、ラベル付きデータを擬似ラベルで単純に補うことで、データの不均衡に取り組む単純なベースライン、SimiSについて研究する。
論文 参考訳(メタデータ) (2022-11-20T21:18:41Z) - When Noisy Labels Meet Long Tail Dilemmas: A Representation Calibration
Method [40.25499257944916]
実世界のデータセットは騒々しくラベル付けされ、クラス不均衡である。
本稿では,表現キャリブレーション手法RCALを提案する。
我々は,表現キャリブレーションの有効性を論じるために理論的結果を得る。
論文 参考訳(メタデータ) (2022-11-20T11:36:48Z) - Improving Model Training via Self-learned Label Representations [5.969349640156469]
より洗練されたラベル表現は、通常のワンホット符号化よりも分類に適していることが示される。
分類タスクの学習中にラベル表現を同時に学習する適応ラベル付き学習(LwAL)アルゴリズムを提案する。
我々のアルゴリズムは無視可能な追加パラメータを導入し、計算オーバーヘッドを最小限に抑える。
論文 参考訳(メタデータ) (2022-09-09T21:10:43Z) - On Non-Random Missing Labels in Semi-Supervised Learning [114.62655062520425]
Semi-Supervised Learning (SSL)は基本的にラベルの問題である。
SSL に "class" を明示的に組み込んでいます。
提案手法は,既存のベースラインを著しく上回るだけでなく,他のラベルバイアス除去SSL法を上回ります。
論文 参考訳(メタデータ) (2022-06-29T22:01:29Z) - Throwing Away Data Improves Worst-Class Error in Imbalanced
Classification [36.91428748713018]
クラス不均衡は分類問題に悪影響を及ぼすが、その治療は理論と実践において異なる。
本稿では,線形分離可能なデータに対する分類器の誤りを記述できる学習理論の開発に挑戦する。
論文 参考訳(メタデータ) (2022-05-23T23:43:18Z) - Imbalanced Classification via Explicit Gradient Learning From Augmented
Data [0.0]
本稿では、与えられた不均衡なデータセットを新しいマイノリティインスタンスに拡張する、新しい深層メタラーニング手法を提案する。
提案手法の利点は, 種々の不均衡比を持つ合成および実世界のデータセット上で実証される。
論文 参考訳(メタデータ) (2022-02-21T22:16:50Z) - PLM: Partial Label Masking for Imbalanced Multi-label Classification [59.68444804243782]
長いラベルの分布を持つ実世界のデータセットで訓練されたニューラルネットワークは、頻繁なクラスに偏りがあり、頻繁なクラスでは不十分である。
本稿では,この比率を利用したPLM(Partial Label Masking)を提案する。
本手法は,マルチラベル (MultiMNIST と MSCOCO) とシングルラベル (CIFAR-10 と CIFAR-100) の2つの画像分類データセットにおいて,既存の手法と比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-05-22T18:07:56Z) - Class-Wise Difficulty-Balanced Loss for Solving Class-Imbalance [6.875312133832079]
そこで本研究では,クラスワイド・バランサード・ロスと呼ばれる新しい損失関数を提案する。
サンプルが属するクラスの難易度に応じて、各サンプルに動的に重みを分配する。
その結果、CDB損失はクラス不均衡データセットにおける最近提案された損失関数よりも一貫して優れていた。
論文 参考訳(メタデータ) (2020-10-05T07:19:19Z) - M2m: Imbalanced Classification via Major-to-minor Translation [79.09018382489506]
ほとんどの実世界のシナリオでは、ラベル付きトレーニングデータセットは非常にクラス不均衡であり、ディープニューラルネットワークは、バランスの取れたテスト基準への一般化に苦しむ。
本稿では,より頻度の低いクラスを,より頻度の低いクラスからのサンプルを翻訳することによって,この問題を緩和する新しい方法を提案する。
提案手法は,従来の再サンプリング法や再重み付け法と比較して,マイノリティクラスの一般化を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-04-01T13:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。