論文の概要: Integrating Unsupervised Clustering and Label-specific Oversampling to
Tackle Imbalanced Multi-label Data
- arxiv url: http://arxiv.org/abs/2109.12421v1
- Date: Sat, 25 Sep 2021 19:00:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 09:47:24.151797
- Title: Integrating Unsupervised Clustering and Label-specific Oversampling to
Tackle Imbalanced Multi-label Data
- Title(参考訳): タックル不均衡多ラベルデータに対する教師なしクラスタリングとラベル特化オーバーサンプリングの統合
- Authors: Payel Sadhukhan, Arjun Pakrashi, Sarbani Palit, Brian Mac Namee
- Abstract要約: クラスタリングは、マルチラベルデータセットの重要で局所的に接続された領域を見つけるために実行される。
クラスタ内の少数点のみが、オーバーサンプリングに使用される合成マイノリティ点を生成するために使用される。
12のマルチラベルデータセットと複数のマルチラベルアルゴリズムを用いた実験により,提案手法が良好に動作したことを示す。
- 参考スコア(独自算出の注目度): 13.888344214818733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is often a mixture of very frequent labels and very infrequent labels
in multi-label datatsets. This variation in label frequency, a type class
imbalance, creates a significant challenge for building efficient multi-label
classification algorithms. In this paper, we tackle this problem by proposing a
minority class oversampling scheme, UCLSO, which integrates Unsupervised
Clustering and Label-Specific data Oversampling. Clustering is performed to
find out the key distinct and locally connected regions of a multi-label
dataset (irrespective of the label information). Next, for each label, we
explore the distributions of minority points in the cluster sets. Only the
minority points within a cluster are used to generate the synthetic minority
points that are used for oversampling. Even though the cluster set is the same
across all labels, the distributions of the synthetic minority points will vary
across the labels. The training dataset is augmented with the set of
label-specific synthetic minority points, and classifiers are trained to
predict the relevance of each label independently. Experiments using 12
multi-label datasets and several multi-label algorithms show that the proposed
method performed very well compared to the other competing algorithms.
- Abstract(参考訳): しばしば、非常に頻繁なラベルと非常に頻繁なラベルが混在している。
このラベル周波数の変化は、タイプクラスの不均衡であり、効率的なマルチラベル分類アルゴリズムを構築する上で大きな課題となる。
本稿では,教師なしクラスタリングとラベル固有データオーバーサンプリングを統合した少数クラスオーバーサンプリングスキームであるuclsoを提案することで,この問題に取り組む。
クラスタリングは、マルチラベルデータセット(ラベル情報とは関係なく)のキーとローカルに接続された領域を見つけるために行われる。
次に、各ラベルに対して、クラスタ集合内の少数点の分布を探索する。
クラスタ内の少数点のみが、オーバーサンプリングに使用される合成少数点を生成するために使用される。
クラスター集合はすべてのラベルで同じであるが、合成マイノリティ点の分布はラベルによって異なる。
トレーニングデータセットはラベル固有の合成マイノリティポイントのセットで拡張され、各ラベルの関連性を個別に予測するために分類器が訓練される。
12のマルチラベルデータセットと複数のマルチラベルアルゴリズムを用いた実験により,提案手法が他の競合アルゴリズムと非常によく比較できることを示した。
関連論文リスト
- Label Cluster Chains for Multi-Label Classification [2.072831155509228]
マルチラベル分類は、複数のラベルをインスタンスに同時に割り当てることができる教師付き機械学習の一種である。
そこで本稿では,ラベル空間に分割法を適用して得られた解離相関ラベルクラスタをチェーンする手法を提案する。
提案手法は,学習と連鎖が相関するラベルクラスタをよりよく探索し,ラベル相関を学習できることを示唆する。
論文 参考訳(メタデータ) (2024-11-01T11:16:37Z) - Exploiting Conjugate Label Information for Multi-Instance Partial-Label Learning [61.00359941983515]
MIPL(Multi-instance partial-label Learning)は、各トレーニングサンプルが1つの真のラベルといくつかの偽陽性を含む候補ラベルセットに関連付けられたマルチインスタンスバッグとして表現されるシナリオに対処する。
ELIMIPLは共役ラベル情報を利用して曖昧性を改善する。
論文 参考訳(メタデータ) (2024-08-26T15:49:31Z) - Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - Disambiguated Attention Embedding for Multi-Instance Partial-Label
Learning [68.56193228008466]
多くの実世界のタスクでは、関連するオブジェクトは、候補ラベルセットに関連付けられたマルチインスタンスバッグとして表現することができる。
既存のMIPLアプローチは、各インスタンスに拡張候補ラベルセットを割り当て、インスタンスレベルのラベルからバッグレベルのラベルを集約することで、インスタンス空間のパラダイムに従っている。
本稿では,DEMIPLという直感的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T13:25:17Z) - Class-Distribution-Aware Pseudo Labeling for Semi-Supervised Multi-Label
Learning [97.88458953075205]
Pseudo-labelingは、ラベルなしデータを利用するための人気で効果的なアプローチとして登場した。
本稿では,クラスアウェアの擬似ラベル処理を行うCAP(Class-Aware Pseudo-Labeling)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-04T12:52:18Z) - Bridging the Gap between Model Explanations in Partially Annotated
Multi-label Classification [85.76130799062379]
偽陰性ラベルがモデルの説明にどのように影響するかを考察する。
本稿では,部分ラベルで学習したモデルの属性スコアを向上し,その説明をフルラベルで学習したモデルと類似させる。
論文 参考訳(メタデータ) (2023-04-04T14:00:59Z) - An Effective Approach for Multi-label Classification with Missing Labels [8.470008570115146]
分類ネットワークにさらなる複雑さをもたらすことなく、アノテーションのコストを削減するための擬似ラベルベースのアプローチを提案する。
新たな損失関数を設計することにより、各インスタンスが少なくとも1つの正のラベルを含む必要があるという要求を緩和することができる。
提案手法は,正のラベルと負のラベルの不均衡を扱える一方で,既存の欠落ラベル学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T23:13:57Z) - Evaluating Multi-label Classifiers with Noisy Labels [0.7868449549351487]
実世界では、クリーンなデータセットよりもノイズの多いデータセットを扱う方が一般的です。
雑音ラベルを効果的に処理するコンテキストベースマルチラベル分類器(CbMLC)を提案する。
CbMLCは、ほとんどの場合、以前の方法よりも大幅に改善されています。
論文 参考訳(メタデータ) (2021-02-16T19:50:52Z) - Rank-Consistency Deep Hashing for Scalable Multi-Label Image Search [90.30623718137244]
スケーラブルなマルチラベル画像検索のための新しいディープハッシュ法を提案する。
2つの空間の類似性順序を整列するために、新しい階数整合性目的を適用した。
強力な損失関数は、意味的類似性とハミング距離が一致しないサンプルをペナルティ化するように設計されている。
論文 参考訳(メタデータ) (2021-02-02T13:46:58Z) - Multi-Label Sampling based on Local Label Imbalance [7.355362369511579]
クラス不均衡は、ほとんどのマルチラベル学習方法を妨げるマルチラベルデータ固有の特徴である。
既存のマルチラベルサンプリングアプローチは、マルチラベルデータセットのグローバル不均衡を軽減する。
実際に、パフォーマンス劣化において重要な役割を果たすマイノリティクラス例の局所的な地区における不均衡レベルである。
論文 参考訳(メタデータ) (2020-05-07T04:14:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。