論文の概要: Progressive Class Semantic Matching for Semi-supervised Text
Classification
- arxiv url: http://arxiv.org/abs/2205.10189v1
- Date: Fri, 20 May 2022 13:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-23 13:32:00.717813
- Title: Progressive Class Semantic Matching for Semi-supervised Text
Classification
- Title(参考訳): 半教師付きテキスト分類のためのプログレッシブクラスセマンティクスマッチング
- Authors: Hai-Ming Xu and Lingqiao Liu and Ehsan Abbasnejad
- Abstract要約: 半教師付き学習と事前学習言語モデルとの結婚について検討する。
大規模な実験により,本手法がベースラインに顕著な改善をもたらすことを示す。
- 参考スコア(独自算出の注目度): 26.794533973357403
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Semi-supervised learning is a promising way to reduce the annotation cost for
text-classification. Combining with pre-trained language models (PLMs), e.g.,
BERT, recent semi-supervised learning methods achieved impressive performance.
In this work, we further investigate the marriage between semi-supervised
learning and a pre-trained language model. Unlike existing approaches that
utilize PLMs only for model parameter initialization, we explore the inherent
topic matching capability inside PLMs for building a more powerful
semi-supervised learning approach. Specifically, we propose a joint
semi-supervised learning process that can progressively build a standard
$K$-way classifier and a matching network for the input text and the Class
Semantic Representation (CSR). The CSR will be initialized from the given
labeled sentences and progressively updated through the training process. By
means of extensive experiments, we show that our method can not only bring
remarkable improvement to baselines, but also overall be more stable, and
achieves state-of-the-art performance in semi-supervised text classification.
- Abstract(参考訳): 半教師付き学習は、テキスト分類のアノテーションコストを削減する有望な方法である。
プレトレーニング言語モデル(PLM)、例えばBERTと組み合わせることで、最近の半教師付き学習手法は印象的な性能を達成した。
本研究では,半教師付き学習と事前学習型言語モデルとの結婚についてさらに検討する。
モデルパラメータの初期化にのみplmを使用する既存のアプローチとは異なり、plm内で固有のトピックマッチング機能を探求し、より強力な半教師付き学習アプローチを構築する。
具体的には、標準の$K$-way分類器と、入力テキストとクラス意味表現(CSR)のマッチングネットワークを段階的に構築する半教師付き学習プロセスを提案する。
CSRは与えられたラベル付き文から初期化され、トレーニングプロセスを通じて徐々に更新される。
大規模な実験により,本手法はベースラインに顕著な改善をもたらすだけでなく,全体的な安定性も向上し,半教師付きテキスト分類における最先端性能を実現する。
関連論文リスト
- Embedding And Clustering Your Data Can Improve Contrastive Pretraining [0.0]
我々は、事前訓練されたテキスト埋め込みモデルと古典的なk-meansクラスタリングアルゴリズムを活用することにより、ソースの粒度を超えてトレーニングデータ層を拡大することを検討する。
MSMARCOトランジッション検索データセットからBERTベースのテキスト埋め込みモデルをクエリパスペア上で事前学習する場合,NDCG@10の顕著な増加が観察された。
論文 参考訳(メタデータ) (2024-07-26T17:36:40Z) - Simple-Sampling and Hard-Mixup with Prototypes to Rebalance Contrastive Learning for Text Classification [11.072083437769093]
我々は不均衡テキスト分類タスクのためのSharpReCLという新しいモデルを提案する。
私たちのモデルは、いくつかのデータセットで人気のある大きな言語モデルよりも優れています。
論文 参考訳(メタデータ) (2024-05-19T11:33:49Z) - Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning [57.74233319453229]
大規模言語モデル(LLM)は画期的な技術として登場し、それらの非並列テキスト生成能力は、基本的な文表現学習タスクへの関心を喚起している。
コーパスを生成するためにLLMの処理を分解するマルチレベルコントラスト文表現学習フレームワークであるMultiCSRを提案する。
実験の結果,MultiCSRはより高度なLCMをChatGPTの性能を超えつつ,ChatGPTに適用することで最先端の成果を得られることがわかった。
論文 参考訳(メタデータ) (2023-10-17T03:21:43Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z) - Beyond prompting: Making Pre-trained Language Models Better Zero-shot
Learners by Clustering Representations [24.3378487252621]
事前学習した言語モデルの埋め込み空間にテキストをクラスタリングすることで、ゼロショットテキスト分類を改善することができることを示す。
提案手法は, 即発的なゼロショット学習よりも平均20%絶対的な改善を実現している。
論文 参考訳(メタデータ) (2022-10-29T16:01:51Z) - Prompt-Learning for Fine-Grained Entity Typing [40.983849729537795]
完全教師付き,少数ショット,ゼロショットシナリオにおける微粒化エンティティタイピングに対するプロンプトラーニングの適用について検討する。
本稿では,エンティティタイプの情報を自動的に要約するために,プロンプトラーニングにおける分布レベルの最適化を行う自己教師型戦略を提案する。
論文 参考訳(メタデータ) (2021-08-24T09:39:35Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。
PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。
PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文 参考訳(メタデータ) (2020-05-11T09:53:36Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。