論文の概要: A Similarity-Based Oversampling Method for Multi-label Imbalanced Text Data
- arxiv url: http://arxiv.org/abs/2411.01013v1
- Date: Fri, 01 Nov 2024 20:33:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:42:25.975261
- Title: A Similarity-Based Oversampling Method for Multi-label Imbalanced Text Data
- Title(参考訳): 多ラベル不均衡テキストデータの類似性に基づくオーバーサンプリング法
- Authors: Ismail Hakki Karaman, Gulser Koksal, Levent Eriskin, Salih Salihoglu,
- Abstract要約: 本研究では,マルチラベルテキスト分類のための新しいオーバーサンプリング手法を紹介し,検討する。
提案手法は,インスタンス間の類似度を利用してラベル付けされていないデータから潜在的に新しいサンプルを同定する。
ラベルなしのデータセットを反復検索することで、未表現のクラスに類似したインスタンスを探索する。
パフォーマンス改善を示すインスタンスがラベル付きデータセットに追加される。
- 参考スコア(独自算出の注目度): 1.799933345199395
- License:
- Abstract: In real-world applications, as data availability increases, obtaining labeled data for machine learning (ML) projects remains challenging due to the high costs and intensive efforts required for data annotation. Many ML projects, particularly those focused on multi-label classification, also grapple with data imbalance issues, where certain classes may lack sufficient data to train effective classifiers. This study introduces and examines a novel oversampling method for multi-label text classification, designed to address performance challenges associated with data imbalance. The proposed method identifies potential new samples from unlabeled data by leveraging similarity measures between instances. By iteratively searching the unlabeled dataset, the method locates instances similar to those in underrepresented classes and evaluates their contribution to classifier performance enhancement. Instances that demonstrate performance improvement are then added to the labeled dataset. Experimental results indicate that the proposed approach effectively enhances classifier performance post-oversampling.
- Abstract(参考訳): 現実のアプリケーションでは、データの可用性が向上するにつれて、機械学習(ML)プロジェクトのためのラベル付きデータを取得することは、データアノテーションに必要な高コストと集中的な労力のために、依然として困難である。
多くのMLプロジェクト、特にマルチラベル分類に焦点を当てたプロジェクトでは、データ不均衡の問題にも対処している。
本研究では,データ不均衡に伴う性能問題に対処するために,マルチラベルテキスト分類のための新しいオーバーサンプリング手法を紹介し,検討する。
提案手法は,インスタンス間の類似度を利用してラベル付けされていないデータから潜在的に新しいサンプルを同定する。
ラベル付けされていないデータセットを反復検索することにより、未表現のクラスに類似したインスタンスを特定し、分類器のパフォーマンス向上への貢献を評価する。
パフォーマンス改善を示すインスタンスがラベル付きデータセットに追加される。
実験結果から,提案手法はオーバサンプリング後の分類器性能を効果的に向上させることが示された。
関連論文リスト
- Dual-Decoupling Learning and Metric-Adaptive Thresholding for Semi-Supervised Multi-Label Learning [81.83013974171364]
半教師付きマルチラベル学習(SSMLL)は、正確なマルチラベルアノテーションを収集するコストを削減するために、ラベルのないデータを活用する強力なフレームワークである。
半教師付き学習とは異なり、インスタンスに含まれる複数のセマンティクスのため、SSMLLの擬似ラベルとして最も確率の高いラベルを選択することはできない。
本稿では,高品質な擬似ラベルを生成するための二重パースペクティブ手法を提案する。
論文 参考訳(メタデータ) (2024-07-26T09:33:53Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Complementary Labels Learning with Augmented Classes [22.460256396941528]
補完ラベル学習 (Complementary Labels Learning, CLL) は、プライベート質問分類やオンライン学習など、現実世界の多くのタスクに現れる。
CLLAC(Complementary Labels Learning with Augmented Classs)と呼ばれる新しい問題設定を提案する。
ラベルのないデータを用いて,CLLACの分類リスクの偏りのない推定手法を提案する。
論文 参考訳(メタデータ) (2022-11-19T13:55:27Z) - Class-Imbalanced Complementary-Label Learning via Weighted Loss [8.934943507699131]
補完ラベル学習(Complementary-label Learning, CLL)は、弱い教師付き分類において広く用いられている。
クラス不均衡のトレーニングサンプルに直面すると、現実世界のデータセットでは大きな課題に直面します。
多クラス分類のためのクラス不均衡補完ラベルからの学習を可能にする新しい問題設定を提案する。
論文 参考訳(メタデータ) (2022-09-28T16:02:42Z) - Active Learning by Feature Mixing [52.16150629234465]
本稿では,ALFA-Mixと呼ばれるバッチ能動学習手法を提案する。
予測の不整合を求めることにより,不整合な特徴を持つインスタンスを同定する。
これらの予測の不整合は、モデルが未認識のインスタンスで認識できない特徴を発見するのに役立ちます。
論文 参考訳(メタデータ) (2022-03-14T12:20:54Z) - Semi-supervised Long-tailed Recognition using Alternate Sampling [95.93760490301395]
ロングテール認識の主な課題は、データ分布の不均衡とテールクラスにおけるサンプル不足である。
半教師付き長尾認識という新しい認識設定を提案する。
2つのデータセットで、他の競合方法よりも大幅な精度向上を実証します。
論文 参考訳(メタデータ) (2021-05-01T00:43:38Z) - A Novel Perspective for Positive-Unlabeled Learning via Noisy Labels [49.990938653249415]
本研究では,初期疑似ラベルを雑音ラベルデータとして用いる非ラベルデータに割り当て,雑音ラベルデータを用いて深層ニューラルネットワークを訓練する手法を提案する。
実験の結果,提案手法は,いくつかのベンチマークデータセットにおいて,最先端の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-03-08T11:46:02Z) - Multi-Label Sampling based on Local Label Imbalance [7.355362369511579]
クラス不均衡は、ほとんどのマルチラベル学習方法を妨げるマルチラベルデータ固有の特徴である。
既存のマルチラベルサンプリングアプローチは、マルチラベルデータセットのグローバル不均衡を軽減する。
実際に、パフォーマンス劣化において重要な役割を果たすマイノリティクラス例の局所的な地区における不均衡レベルである。
論文 参考訳(メタデータ) (2020-05-07T04:14:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。