論文の概要: Semi-Supervised Learning with Balanced Deep Representation Distributions
- arxiv url: http://arxiv.org/abs/2603.21056v1
- Date: Sun, 22 Mar 2026 04:46:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.213093
- Title: Semi-Supervised Learning with Balanced Deep Representation Distributions
- Title(参考訳): バランスの取れた深部表現分布を用いた半教師付き学習
- Authors: Changchun Li, Ximing Li, Bingjie Zhang, Wenting Wang, Jihong Ouyang,
- Abstract要約: バランスの取れた深層表現分布(S2TC-BDD)を用いた半教師付きテキスト分類法を提案する。
我々はS2TC-BDDのマルチクラス分類版とマルチラベル分類版の両方を実装し、擬似ラベルのトリックや正規化用語を導入している。
実験の結果,特にラベル付きテキストが不足している場合,S2 TC-BDDの有効性が示された。
- 参考スコア(独自算出の注目度): 18.02420981397051
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Semi-Supervised Text Classification (SSTC) mainly works under the spirit of self-training. They initialize the deep classifier by training over labeled texts; and then alternatively predict unlabeled texts as their pseudo-labels and train the deep classifier over the mixture of labeled and pseudo-labeled texts. Naturally, their performance is largely affected by the accuracy of pseudo-labels for unlabeled texts. Unfortunately, they often suffer from low accuracy because of the margin bias problem caused by the large difference between representation distributions of labels in SSTC. To alleviate this problem, we apply the angular margin loss, and perform several Gaussian linear transformations to achieve balanced label angle variances, i.e., the variance of label angles of texts within the same label. More accuracy of predicted pseudo-labels can be achieved by constraining all label angle variances balanced, where they are estimated over both labeled and pseudo-labeled texts during self-training loops. With this insight, we propose a novel SSTC method, namely Semi-Supervised Text Classification with Balanced Deep representation Distributions (S2TC-BDD). We implement both multi-class classification and multi-label classification versions of S2TC-BDD by introducing some pseudo-labeling tricks and regularization terms. To evaluate S2 TC-BDD, we compare it against the state-of-the-art SSTC methods. Empirical results demonstrate the effectiveness of S2 TC-BDD, especially when the labeled texts are scarce.
- Abstract(参考訳): 半監督テキスト分類(SSTC)は、主に自己学習の精神の下で機能する。
ラベル付きテキストをトレーニングすることでディープ分類器を初期化し、代わりにラベル付きテキストを擬似ラベルとして予測し、ラベル付きテキストと擬似ラベル付きテキストを混合してディープ分類器を訓練する。
当然、そのパフォーマンスは、ラベルなしテキストの擬似ラベルの精度に大きく影響される。
残念なことに、SSTCにおけるラベルの表現分布の大きな違いに起因するマージンバイアスの問題により、しばしば低い精度で悩まされる。
この問題を緩和するために、角マージン損失を適用し、複数のガウス線形変換を行い、バランスの取れたラベル角のばらつき、すなわち、同じラベル内のテキストのラベル角のばらつきを実現する。
予測された擬似ラベルの精度は、ラベル付きテキストと擬似ラベル付きテキストの両方に対して自己学習ループ中に推定される全てのラベル角の分散を制限することによって達成できる。
そこで本研究では,S2TC-BDDを用いたSSTC手法を提案する。
我々はS2TC-BDDのマルチクラス分類版とマルチラベル分類版の両方を実装し、擬似ラベルのトリックや正規化用語を導入している。
S2 TC-BDDを評価するために、最先端のSSTC法と比較する。
実験の結果,特にラベル付きテキストが不足している場合,S2 TC-BDDの有効性が示された。
関連論文リスト
- Boosting Meta-Learning for Few-Shot Text Classification via Label-guided Distance Scaling [14.128153594493964]
短いショットテキスト分類は、ラベル付きテキストサンプルが限定された未確認のクラスを認識することを目的としている。
textbfLabel-guided textbfDistance textbfScaling (LDS) 戦略を提案する。
トレーニング段階において、ラベル誘導損失を設計し、ラベルの意味情報を注入し、サンプル表現を近づける。
テスト段階では,ラベルセマンティクスを用いてサンプル表現をスケールし,さらなる監視信号を提供するラベル誘導尺度を提案する。
論文 参考訳(メタデータ) (2026-02-28T13:59:15Z) - DiCaP: Distribution-Calibrated Pseudo-labeling for Semi-Supervised Multi-Label Learning [83.94574004953346]
半教師付きマルチラベル学習は、ラベルのないデータを活用してモデルの性能を向上させることを目的としている。
既存の手法の多くは、その品質に関わらず、すべての擬似ラベルに等しい重みを割り当てる。
擬似ラベル重みの校正に後部精度を推定する正当性認識フレームワークDiCaPを提案する。
論文 参考訳(メタデータ) (2025-11-25T11:55:02Z) - Prompt-based Pseudo-labeling Strategy for Sample-Efficient Semi-Supervised Extractive Summarization [12.582774521907227]
半教師付き学習(SSL)は、ラベル付きデータが不足し、ラベルなしデータが豊富であるシナリオで広く使われているテクニックである。
標準SSLメソッドは、まず分類モデルをトレーニングし、次に分類器の信頼性値を使用して擬似ラベルを選択するために教師-学生パラダイムに従う。
より正確な擬似ラベルでラベルなしのサンプルを抽出するLLMを用いたプロンプトベースの擬似ラベル方式を提案する。
論文 参考訳(メタデータ) (2023-11-16T04:29:41Z) - Generating Unbiased Pseudo-labels via a Theoretically Guaranteed
Chebyshev Constraint to Unify Semi-supervised Classification and Regression [57.17120203327993]
分類におけるしきい値と擬似ラベルプロセス(T2L)は、ラベルの品質を決定するために信頼性を使用する。
本質的には、レグレッションは高品質なラベルを生成するためにバイアスのない方法も必要である。
チェビシェフの不等式に基づく不偏ラベルを生成するための理論的に保証された制約を提案する。
論文 参考訳(メタデータ) (2023-11-03T08:39:35Z) - JointMatch: A Unified Approach for Diverse and Collaborative
Pseudo-Labeling to Semi-Supervised Text Classification [65.268245109828]
半教師付きテキスト分類(SSTC)は、ラベルのないデータを活用する能力によって注目を集めている。
擬似ラベルに基づく既存のアプローチは、擬似ラベルバイアスと誤り蓄積の問題に悩まされる。
我々は、最近の半教師付き学習からアイデアを統一することでこれらの課題に対処する、SSTCの総合的なアプローチであるJointMatchを提案する。
論文 参考訳(メタデータ) (2023-10-23T05:43:35Z) - Rank-Aware Negative Training for Semi-Supervised Text Classification [3.105629960108712]
半教師付きテキスト分類ベースのパラダイム(SSTC)は通常、自己学習の精神を用いる。
本稿では,SSTCを雑音ラベル方式で学習する上で,RNT(Range-Aware Negative Training)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-13T08:41:36Z) - Acknowledging the Unknown for Multi-label Learning with Single Positive
Labels [65.5889334964149]
伝統的に、全ての無注釈ラベルは、単一正のマルチラベル学習(SPML)において負のラベルとして仮定される。
本研究では, 予測確率のエントロピーを最大化するエントロピー最大化(EM)損失を提案する。
非通知ラベルの正負ラベル不均衡を考慮し、非対称耐性戦略とより精密な監視を行うセルフペースト手順を備えた非対称擬似ラベル(APL)を提案する。
論文 参考訳(メタデータ) (2022-03-30T11:43:59Z) - CLS: Cross Labeling Supervision for Semi-Supervised Learning [9.929229055862491]
Cross Labeling Supervision (CLS) は、典型的な擬似ラベル処理を一般化するフレームワークである。
CLSは擬似ラベルと相補ラベルの両方を作成でき、正と負の両方の学習をサポートする。
論文 参考訳(メタデータ) (2022-02-17T08:09:40Z) - Distribution-Aware Semantics-Oriented Pseudo-label for Imbalanced
Semi-Supervised Learning [80.05441565830726]
本稿では,疑似ラベルの重み付けがモデル性能に悪影響を及ぼすような,不均衡な半教師付き学習に対処する。
本稿では,この観測の動機となるバイアスに対処する,一般的な擬似ラベルフレームワークを提案する。
不均衡SSLのための新しい擬似ラベルフレームワークを、DASO(Distributed-Aware Semantics-Oriented Pseudo-label)と呼ぶ。
論文 参考訳(メタデータ) (2021-06-10T11:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。