論文の概要: Micro Text Classification Based on Balanced Positive-Unlabeled Learning
- arxiv url: http://arxiv.org/abs/2503.13562v1
- Date: Mon, 17 Mar 2025 07:42:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:18:26.942317
- Title: Micro Text Classification Based on Balanced Positive-Unlabeled Learning
- Title(参考訳): バランスの取れない学習に基づくマイクロテキストの分類
- Authors: Lin-Han Jia, Lan-Zhe Guo, Zhi Zhou, Si-Ye Han, Zi-Wen Li, Yu-Feng Li,
- Abstract要約: 現実世界のテキスト分類タスクでは、負のテキストは最小の負のコンテンツを含むことが多い。
マクロレベルでは、粗粒の正と負のサンプルの相似性が高いため、負のテキストの区別が難しい。
マイクロレベルでは、問題は極度のクラス不均衡ときめ細かいラベルの欠如に起因している。
- 参考スコア(独自算出の注目度): 46.44686264442672
- License:
- Abstract: In real-world text classification tasks, negative texts often contain a minimal proportion of negative content, which is especially problematic in areas like text quality control, legal risk screening, and sensitive information interception. This challenge manifests at two levels: at the macro level, distinguishing negative texts is difficult due to the high similarity between coarse-grained positive and negative samples; at the micro level, the issue stems from extreme class imbalance and a lack of fine-grained labels. To address these challenges, we propose transforming the coarse-grained positive-negative (PN) classification task into an imbalanced fine-grained positive-unlabeled (PU) classification problem, supported by theoretical analysis. We introduce a novel framework, Balanced Fine-Grained Positive-Unlabeled (BFGPU) learning, which features a unique PU learning loss function that optimizes macro-level performance amidst severe imbalance at the micro level. The framework's performance is further boosted by rebalanced pseudo-labeling and threshold adjustment. Extensive experiments on both public and real-world datasets demonstrate the effectiveness of BFGPU, which outperforms other methods, even in extreme scenarios where both macro and micro levels are highly imbalanced.
- Abstract(参考訳): 現実のテキスト分類タスクでは、負のテキストには最小限の負のコンテンツが含まれており、テキストの品質管理、法的リスクのスクリーニング、機密情報の傍受といった分野で特に問題となる。
この課題は、マクロレベルでは、粗粒度の正と負のサンプルの間に高い類似性があるため、負のテキストを区別することは困難であり、マイクロレベルでは、極度のクラス不均衡ときめ細かいラベルの欠如に起因する。
これらの課題に対処するため、理論解析によって支援された粗粒度正負の分類タスクを不均衡な粒度正の未ラベル(PU)分類問題に変換することを提案する。
本稿では,マイクロレベルの過度の不均衡の中でマクロレベルの性能を最適化する,独特なPU学習損失関数を備えたBFGPU学習フレームワークを提案する。
フレームワークのパフォーマンスは、擬似ラベルの再バランスとしきい値調整によってさらに向上する。
公開と実世界の両方のデータセットに対する大規模な実験は、マクロレベルとマイクロレベルの両方が非常に不均衡な極端なシナリオであっても、他の手法よりも優れたBFGPUの有効性を示す。
関連論文リスト
- Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - CLAF: Contrastive Learning with Augmented Features for Imbalanced
Semi-Supervised Learning [40.5117833362268]
半教師付き学習とコントラスト学習は、ポピュラーなアプリケーションでより良いパフォーマンスを達成するために徐々に組み合わせられてきた。
1つの一般的な方法は、擬似ラベルを未ラベルのサンプルに割り当て、擬似ラベルのサンプルから正と負のサンプルを選択して、対照的な学習を適用することである。
比較学習における少数クラスサンプルの不足を軽減するために,CLAF(Contrastive Learning with Augmented Features)を提案する。
論文 参考訳(メタデータ) (2023-12-15T08:27:52Z) - Learning with Complementary Labels Revisited: The Selected-Completely-at-Random Setting Is More Practical [66.57396042747706]
補完ラベル学習は、弱教師付き学習問題である。
均一分布仮定に依存しない一貫したアプローチを提案する。
相補的なラベル学習は、負のラベル付きバイナリ分類問題の集合として表現できる。
論文 参考訳(メタデータ) (2023-11-27T02:59:17Z) - Revisiting Class Imbalance for End-to-end Semi-Supervised Object
Detection [1.6249267147413524]
半教師付きオブジェクト検出(SSOD)は、擬似ラベルに基づくエンドツーエンド手法の開発において大きな進歩を遂げている。
多くの手法は、擬似ラベルジェネレータの有効性を妨げるクラス不均衡のため、課題に直面している。
本稿では,低品質な擬似ラベルの根本原因と,ラベル生成品質を改善するための新しい学習メカニズムについて検討する。
論文 参考訳(メタデータ) (2023-06-04T06:01:53Z) - Class-Distribution-Aware Pseudo Labeling for Semi-Supervised Multi-Label
Learning [97.88458953075205]
Pseudo-labelingは、ラベルなしデータを利用するための人気で効果的なアプローチとして登場した。
本稿では,クラスアウェアの擬似ラベル処理を行うCAP(Class-Aware Pseudo-Labeling)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-04T12:52:18Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Uncertainty-aware Pseudo-label Selection for Positive-Unlabeled Learning [10.014356492742074]
本稿では,正の未ラベル学習環境における不均衡データセットとモデル校正の問題に取り組むことを提案する。
マイノリティクラスからのシグナルを増強することにより、擬似ラベル付けはラベル付きデータセットをラベル付きデータセットから新しいサンプルで拡張する。
PUUPLは一連の実験において、高度に不均衡な設定で大幅な性能向上をもたらす。
論文 参考訳(メタデータ) (2022-01-31T12:55:47Z) - On Positive-Unlabeled Classification in GAN [130.43248168149432]
本稿では,標準GANに対する肯定的かつ未ラベルの分類問題を定義する。
その後、GANにおける差別者の訓練を安定させる新しい手法が導かれる。
論文 参考訳(メタデータ) (2020-02-04T05:59:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。