論文の概要: Label Semantic Aware Pre-training for Few-shot Text Classification
- arxiv url: http://arxiv.org/abs/2204.07128v1
- Date: Thu, 14 Apr 2022 17:33:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-15 14:26:43.698116
- Title: Label Semantic Aware Pre-training for Few-shot Text Classification
- Title(参考訳): ファウショットテキスト分類のためのラベルセマンティックアウェア事前学習
- Authors: Aaron Mueller, Jason Krone, Salvatore Romeo, Saab Mansour, Elman
Mansimov, Yi Zhang, Dan Roth
- Abstract要約: テキスト分類システムの一般化とデータ効率を向上させるために,ラベルセマンティック・アウェア事前学習(LSAP)を提案する。
LSAPは、ラベル付き文の2次事前学習を行うことにより、ラベルセマンティクスを事前学習された生成モデル(T5)に組み込む。
- 参考スコア(独自算出の注目度): 53.80908620663974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In text classification tasks, useful information is encoded in the label
names. Label semantic aware systems have leveraged this information for
improved text classification performance during fine-tuning and prediction.
However, use of label-semantics during pre-training has not been extensively
explored. We therefore propose Label Semantic Aware Pre-training (LSAP) to
improve the generalization and data efficiency of text classification systems.
LSAP incorporates label semantics into pre-trained generative models (T5 in our
case) by performing secondary pre-training on labeled sentences from a variety
of domains. As domain-general pre-training requires large amounts of data, we
develop a filtering and labeling pipeline to automatically create
sentence-label pairs from unlabeled text. We perform experiments on intent
(ATIS, Snips, TOPv2) and topic classification (AG News, Yahoo! Answers). LSAP
obtains significant accuracy improvements over state-of-the-art models for
few-shot text classification while maintaining performance comparable to state
of the art in high-resource settings.
- Abstract(参考訳): テキスト分類タスクでは、有用な情報はラベル名にエンコードされる。
ラベルセマンティックアウェアメントシステムは、この情報を利用して、微調整および予測時のテキスト分類性能を向上させる。
しかし、事前訓練におけるラベル・セマンティクスの使用は広く研究されていない。
そこで本研究では,テキスト分類システムの一般化とデータ効率を向上させるために,LSAP(Label Semantic Aware Pre-training)を提案する。
LSAPは、ラベル付き文の2次事前学習を行うことにより、ラベルセマンティクスを事前学習された生成モデル(T5)に組み込む。
ドメイン一般の事前学習は大量のデータを必要とするため、ラベルのないテキストから文とラベルのペアを自動的に生成するフィルタリングとラベル付けのパイプラインを開発する。
我々は意図(ATIS, Snips, TOPv2)とトピック分類(AG News, Yahoo! Answers)について実験を行った。
lsapは、最先端のテキスト分類モデルよりも精度が大幅に向上し、ハイリソース設定でのstate of the artに匹敵するパフォーマンスを維持している。
関連論文リスト
- Leveraging Label Semantics and Meta-Label Refinement for Multi-Label Question Classification [11.19022605804112]
本稿では,新手法RR2QCを多ラベル質問分類に適用する。
ラベルセマンティクスとメタラベルの改良を使用して、パーソナライズされた学習とリソースレコメンデーションを強化する。
実験の結果,RR2QCはPrecision@kとF1スコアの既存の分類方法よりも優れていた。
論文 参考訳(メタデータ) (2024-11-04T06:27:14Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Substituting Data Annotation with Balanced Updates and Collective Loss
in Multi-label Text Classification [19.592985329023733]
MLTC(Multi-label text classification)は、あるテキストに複数のラベルを割り当てるタスクである。
本報告では,MLTCの問題点を,ラベル数に比例して,利用可能な監視信号の大きさが線形であるアノテーションフリーおよび希少アノテーション設定で検討する。
提案手法は,(1)事前学習した言語モデルを用いて,入力テキストを事前ラベル候補の集合にマッピングし,(2)ラベル記述による署名付きラベル依存グラフの計算,(3)ラベル依存グラフに沿ったメッセージパスによる事前ラベル候補の更新を行う。
論文 参考訳(メタデータ) (2023-09-24T04:12:52Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - Rank-Aware Negative Training for Semi-Supervised Text Classification [3.105629960108712]
半教師付きテキスト分類ベースのパラダイム(SSTC)は通常、自己学習の精神を用いる。
本稿では,SSTCを雑音ラベル方式で学習する上で,RNT(Range-Aware Negative Training)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-13T08:41:36Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Like a Good Nearest Neighbor: Practical Content Moderation and Text
Classification [66.02091763340094]
LaGoNN(Good Nearest Neighbor)は、学習可能なパラメータを導入することなく、隣人の情報で入力テキストを変更するSetFitの変更である。
LaGoNNは望ましくないコンテンツやテキスト分類のフラグ付けに有効であり、SetFitのパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-02-17T15:43:29Z) - LST: Lexicon-Guided Self-Training for Few-Shot Text Classification [3.7277082975620806]
LSTは,レキシコンを用いて擬似ラベル機構を誘導する簡単な自己学習手法である。
5つのベンチマークデータセットに対して、クラス毎に30のラベル付きサンプルに対して、この単純で巧妙な語彙知識が1.0-2.0%のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2022-02-05T14:33:12Z) - GUDN A novel guide network for extreme multi-label text classification [12.975260278131078]
本稿では,学習前のモデルを微調整し,後で分類を指示する新しいガイドネットワーク(GUDN)を構築する。
また、テキストとラベル間の潜伏空間を効果的に探索するために、生のラベルセマンティクスを使用し、予測精度をさらに向上させることができる。
論文 参考訳(メタデータ) (2022-01-10T07:33:36Z) - Unsupervised Label Refinement Improves Dataless Text Classification [48.031421660674745]
データレステキスト分類は、ラベル記述と組み合わせた文書にスコアを割り当てることで、文書を未確認のラベルに分類することができる。
有望ながら、それは重要なダウンストリームタスクごとにラベルセットの正確な説明に依存します。
この依存により、データレス分類器はラベル記述の選択に非常に敏感になり、実際にはデータレス分類の幅広い適用を妨げる。
論文 参考訳(メタデータ) (2020-12-08T03:37:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。