論文の概要: The Benefits of Label-Description Training for Zero-Shot Text
Classification
- arxiv url: http://arxiv.org/abs/2305.02239v1
- Date: Wed, 3 May 2023 16:19:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 14:08:51.379320
- Title: The Benefits of Label-Description Training for Zero-Shot Text
Classification
- Title(参考訳): ゼロショットテキスト分類におけるラベル記述訓練の利点
- Authors: Lingyu Gao, Debanjan Ghosh, Kevin Gimpel
- Abstract要約: 最小限の努力でゼロショット精度をさらに向上する簡単な方法を提案する。
タスクのラベルを記述するために、小さな微調整データセットをキュレートする。
我々のデータは、いくつかの関連用語、辞書/百科事典のエントリ、短いテンプレートを使って、単に言語でラベルを記述する。
- 参考スコア(独自算出の注目度): 35.87102025753666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have improved zero-shot text classification by allowing
the transfer of semantic knowledge from the training data in order to classify
among specific label sets in downstream tasks. We propose a simple way to
further improve zero-shot accuracies with minimal effort. We curate small
finetuning datasets intended to describe the labels for a task. Unlike typical
finetuning data, which has texts annotated with labels, our data simply
describes the labels in language, e.g., using a few related terms,
dictionary/encyclopedia entries, and short templates. Across a range of topic
and sentiment datasets, our method is more accurate than zero-shot by 15-17%
absolute. It is also more robust to choices required for zero-shot
classification, such as patterns for prompting the model to classify and
mappings from labels to tokens in the model's vocabulary. Furthermore, since
our data merely describes the labels but does not use input texts, finetuning
on it yields a model that performs strongly on multiple text domains for a
given label set, even improving over few-shot out-of-domain classification in
multiple settings.
- Abstract(参考訳): 大規模言語モデルは、下流タスクで特定のラベルセットを分類するために、トレーニングデータから意味的な知識を伝達することで、ゼロショットテキスト分類を改善した。
最小限の努力でゼロショット精度をさらに向上する簡単な方法を提案する。
タスクのラベルを記述するための小さな微調整データセットをキュレートする。
ラベルでアノテートされたテキストを持つ一般的な微調整データとは異なり、我々のデータは、いくつかの関連用語、辞書/百科事典エントリ、短いテンプレートを使用して、単にラベルを言語で記述する。
トピックや感情のデータセットの範囲で、この手法はゼロショットよりも15-17%精度が高い。
また、ゼロショット分類に必要な選択、例えばモデルの語彙のラベルからトークンへの分類とマッピングを促すパターンに対して、より堅牢である。
さらに,データにはラベルのみを記述するが入力テキストは使用しないため,入力文を微調整することで,与えられたラベルセットの複数のテキストドメインに対して強く動作し,複数設定で数ショットのドメイン外分類も改善するモデルが得られる。
関連論文リスト
- Gen-Z: Generative Zero-Shot Text Classification with Contextualized
Label Descriptions [50.92702206798324]
ゼロショットテキスト分類のための生成的プロンプトフレームワークを提案する。
GEN-Zはラベルの自然言語記述に基づく入力テキストのLM可能性を測定する。
データソースの文脈化によるゼロショット分類は、ゼロショットベースラインと少数ショットベースラインの両方を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2023-11-13T07:12:57Z) - Substituting Data Annotation with Balanced Updates and Collective Loss
in Multi-label Text Classification [19.592985329023733]
MLTC(Multi-label text classification)は、あるテキストに複数のラベルを割り当てるタスクである。
本報告では,MLTCの問題点を,ラベル数に比例して,利用可能な監視信号の大きさが線形であるアノテーションフリーおよび希少アノテーション設定で検討する。
提案手法は,(1)事前学習した言語モデルを用いて,入力テキストを事前ラベル候補の集合にマッピングし,(2)ラベル記述による署名付きラベル依存グラフの計算,(3)ラベル依存グラフに沿ったメッセージパスによる事前ラベル候補の更新を行う。
論文 参考訳(メタデータ) (2023-09-24T04:12:52Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - Label Agnostic Pre-training for Zero-shot Text Classification [4.9081735096855565]
現実世界の応用では、与えられたテキストを記述するための無限ラベル空間が存在する。
我々は2つの新しいシンプルで効果的な事前学習戦略、ImplicitとExplicitの事前学習を導入する。
これらのメソッドは、タスクレベルの理解を構築するためにモデルを条件付けすることを目的として、列車時のモデルにアスペクトレベルの理解を注入します。
論文 参考訳(メタデータ) (2023-05-25T22:55:32Z) - Bridging the Gap between Model Explanations in Partially Annotated
Multi-label Classification [85.76130799062379]
偽陰性ラベルがモデルの説明にどのように影響するかを考察する。
本稿では,部分ラベルで学習したモデルの属性スコアを向上し,その説明をフルラベルで学習したモデルと類似させる。
論文 参考訳(メタデータ) (2023-04-04T14:00:59Z) - Unsupervised Ranking and Aggregation of Label Descriptions for Zero-Shot
Classifiers [8.434227773463022]
本当のゼロショット設定では、開発セットがないため、良いラベル記述を設計することは難しい。
本研究では, ラベル記述を教師なしの方法で選択するために, 繰り返し評価分析の確率モデルをどのように利用できるかを検討する。
論文 参考訳(メタデータ) (2022-04-20T14:23:09Z) - Label Semantic Aware Pre-training for Few-shot Text Classification [53.80908620663974]
テキスト分類システムの一般化とデータ効率を向上させるために,ラベルセマンティック・アウェア事前学習(LSAP)を提案する。
LSAPは、ラベル付き文の2次事前学習を行うことにより、ラベルセマンティクスを事前学習された生成モデル(T5)に組み込む。
論文 参考訳(メタデータ) (2022-04-14T17:33:34Z) - Improving Probabilistic Models in Text Classification via Active
Learning [0.0]
本稿では,ラベル付きデータとラベルなしデータの両方からの情報と,アクティブな学習成分を結合したテキスト分類のための高速な新しいモデルを提案する。
本研究では,未ラベルデータの構造に関する情報を導入し,不確実な文書を反復的にラベル付けすることにより,性能を向上することを示す。
論文 参考訳(メタデータ) (2022-02-05T20:09:26Z) - Unsupervised Label Refinement Improves Dataless Text Classification [48.031421660674745]
データレステキスト分類は、ラベル記述と組み合わせた文書にスコアを割り当てることで、文書を未確認のラベルに分類することができる。
有望ながら、それは重要なダウンストリームタスクごとにラベルセットの正確な説明に依存します。
この依存により、データレス分類器はラベル記述の選択に非常に敏感になり、実際にはデータレス分類の幅広い適用を妨げる。
論文 参考訳(メタデータ) (2020-12-08T03:37:50Z) - Text Classification Using Label Names Only: A Language Model
Self-Training Approach [80.63885282358204]
現在のテキスト分類法は、訓練データとして多くの人ラベルの文書を必要とするのが一般的である。
本モデルでは,トピック分類や感情分類を含む4つのベンチマークデータセットにおいて,約90%の精度が得られた。
論文 参考訳(メタデータ) (2020-10-14T17:06:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。