論文の概要: Addressing Imbalance in Multi-Label Data via Label-Specific Distance-based Oversampling
- arxiv url: http://arxiv.org/abs/2606.05927v1
- Date: Thu, 04 Jun 2026 09:30:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.692815
- Title: Addressing Imbalance in Multi-Label Data via Label-Specific Distance-based Oversampling
- Title(参考訳): ラベル特異的距離に基づくオーバーサンプリングによるマルチラベルデータの不均衡への対処
- Authors: Bin Liu, Jun Wu, Haoyu Peng, Ao Zhou, Jin Wang, QiaoSong Chen, Grigorios Tsoumakas,
- Abstract要約: 本稿では,ラベル距離に基づくマルチラベルオーバーサンプリング (LSDMLO) と呼ばれる新しいサンプリング手法を提案する。
LSDMLOはラベル固有の距離を導出し、重み付き特徴空間に基づいてラベルに一貫性のある隣人を識別する。
提案するLSDMLOは,最先端のマルチラベルサンプリング手法よりも高い性能を示す。
- 参考スコア(独自算出の注目度): 11.772739318850752
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The complex imbalanced label distribution poses a crucial challenge to multi-label classification, as most classifiers are biased towards the majority class and high-frequent labels. Oversampling is an efficient and flexible solution that augments instances to provide a more balanced training dataset for multi-label classifiers. Most existing oversampling methods create synthetic instances in a heuristic way that essentially relies on neighborhood information retrieved using Euclidean distance within the entire feature space. However, they fail to consider the varying semantic relevance of features to different labels, leading to label inconsistency among proximate neighbors and further introducing label confusion and overfitting to synthetic instances. To overcome the above issue, we propose a novel sampling approach called Label-Specific Distance-based Multi-Label Oversampling (LSDMLO) that creates more useful and well-labeled synthetic instances to address the imbalance in multi-label datasets. LSDMLO derives the label-specific distance to identify label-consistent neighbors based on the weighted pertinent feature space, which facilitates selecting seed instances that express more label correlations in boundary areas and generating synthetic instances aligned with the label distribution of original data. The comprehensive experiments verify that the proposed LSDMLO outperforms the state-of-the-art multi-label sampling approaches under various base classifiers.
- Abstract(参考訳): 複雑な不均衡ラベル分布は、ほとんどの分類器が多数派や頻繁なラベルに偏っているため、マルチラベル分類にとって重要な課題である。
Oversamplingは、複数ラベルの分類器のためのよりバランスのとれたトレーニングデータセットを提供するためにインスタンスを拡張する、効率的で柔軟なソリューションである。
既存のオーバーサンプリング手法の多くは、本質的には特徴空間全体のユークリッド距離を用いて取得した近傍情報に依存する、ヒューリスティックな方法で合成インスタンスを生成する。
しかし、彼らは異なるラベルに対する特徴の様々な意味的関連性を考慮することができず、近親者間のラベルの不整合を招き、さらにラベルの混乱と合成インスタンスへの過度な適合をもたらす。
上記の課題を克服するため,ラベル距離に基づくマルチラベルオーバーサンプリング(LSDMLO)と呼ばれる新しいサンプリング手法を提案する。
LSDMLOはラベル固有の距離を導出し、ラベルに一貫性のある隣人を重み付けされた特徴空間に基づいて識別し、境界領域におけるより多くのラベル相関を表現し、元のデータのラベル分布に沿った合成インスタンスを生成するシードインスタンスの選択を容易にする。
総合的な実験により,提案したLSDMLOは,様々な基本分類法の下で,最先端のマルチラベルサンプリング手法よりも優れていることを確認した。
関連論文リスト
- Feature-Label Modal Alignment for Robust Partial Multi-Label Learning [66.1611192892514]
特徴ラベルアライメント(PML-MA)に基づく新しいPML手法を提案する。
PML-MAは特徴とラベルを2つの相補的なモダリティとして扱い、体系的なアライメントを通じて一貫性を回復する。
実世界のデータセットと合成データセットの両方の実験では、PML-MAが最先端の手法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2026-04-10T07:44:46Z) - Label Distribution Learning with Biased Annotations by Learning Multi-Label Representation [120.97262070068224]
マルチラベル学習(MLL)は,実世界のデータ表現能力に注目されている。
ラベル分布学習(LDL)は正確なラベル分布の収集において課題に直面している。
論文 参考訳(メタデータ) (2025-02-03T09:04:03Z) - Mixed Blessing: Class-Wise Embedding guided Instance-Dependent Partial Label Learning [53.64180787439527]
部分ラベル学習(PLL)では、各サンプルは、基底トラスラベルと複数のノイズラベルからなる候補ラベルセットに関連付けられている。
初めて、各サンプルに対してクラスワイドな埋め込みを作成し、インスタンス依存のノイズラベルの関係を調査できるようにします。
ラベルの曖昧さを低減するため,グローバルな特徴情報を含むクラスプロトタイプのコンセプトを紹介した。
論文 参考訳(メタデータ) (2024-12-06T13:25:39Z) - Exploiting Conjugate Label Information for Multi-Instance Partial-Label Learning [61.00359941983515]
MIPL(Multi-instance partial-label Learning)は、各トレーニングサンプルが1つの真のラベルといくつかの偽陽性を含む候補ラベルセットに関連付けられたマルチインスタンスバッグとして表現されるシナリオに対処する。
ELIMIPLは共役ラベル情報を利用して曖昧性を改善する。
論文 参考訳(メタデータ) (2024-08-26T15:49:31Z) - Scalable Label Distribution Learning for Multi-Label Classification [43.52928088881866]
マルチラベル分類(MLC、Multi-label classification)とは、あるインスタンスに関連ラベルのセットをタグ付けする問題を指す。
既存のMLC法の多くは、ラベルペア内の2つのラベルの相関が対称であるという仮定に基づいている。
既存のほとんどの手法はラベル数に関連する学習プロセスを設計しており、大規模な出力空間にスケールアップする際の計算複雑性をボトルネックにしている。
論文 参考訳(メタデータ) (2023-11-28T06:52:53Z) - One Positive Label is Sufficient: Single-Positive Multi-Label Learning
with Label Enhancement [71.9401831465908]
本研究では,SPMLL (Single- positive multi-label learning) について検討した。
ラベルエンハンスメントを用いた単陽性MultIラベル学習という新しい手法を提案する。
ベンチマークデータセットの実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2022-06-01T14:26:30Z) - Integrating Unsupervised Clustering and Label-specific Oversampling to
Tackle Imbalanced Multi-label Data [13.888344214818733]
クラスタリングは、マルチラベルデータセットの重要で局所的に接続された領域を見つけるために実行される。
クラスタ内の少数点のみが、オーバーサンプリングに使用される合成マイノリティ点を生成するために使用される。
12のマルチラベルデータセットと複数のマルチラベルアルゴリズムを用いた実験により,提案手法が良好に動作したことを示す。
論文 参考訳(メタデータ) (2021-09-25T19:00:00Z) - Multi-Label Sampling based on Local Label Imbalance [7.355362369511579]
クラス不均衡は、ほとんどのマルチラベル学習方法を妨げるマルチラベルデータ固有の特徴である。
既存のマルチラベルサンプリングアプローチは、マルチラベルデータセットのグローバル不均衡を軽減する。
実際に、パフォーマンス劣化において重要な役割を果たすマイノリティクラス例の局所的な地区における不均衡レベルである。
論文 参考訳(メタデータ) (2020-05-07T04:14:23Z) - Generalized Label Enhancement with Sample Correlations [24.582764493585362]
サンプル相関付きラベル拡張(LESC)と、サンプル相関付きラベル拡張(gLESC)の2つの新しいラベル拡張手法を提案する。
サンプル相関から,提案手法はラベル強化性能を向上させることができる。
論文 参考訳(メタデータ) (2020-04-07T03:32:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。