論文の概要: Empowering Sentence Encoders with Prompting and Label Retrieval for
Zero-shot Text Classification
- arxiv url: http://arxiv.org/abs/2212.10391v2
- Date: Fri, 19 May 2023 08:37:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 19:25:59.825077
- Title: Empowering Sentence Encoders with Prompting and Label Retrieval for
Zero-shot Text Classification
- Title(参考訳): ゼロショットテキスト分類のためのプロンプトとラベル検索による文エンコーダの強化
- Authors: Jimin Hong, Jungsoo Park, Daeyoung Kim, Seongjae Choi, Bokyung Son,
and Jaewook Kang
- Abstract要約: 我々のフレームワークであるRaLPは、文エンコーダでラベル候補をエンコードし、入力テキスト埋め込みと最もよく似たラベルを割り当てる。
RaLPは、様々なクローズドセット分類とマルチチョイスQAデータセットに基づいて、はるかに大きなベースラインよりも、競争力や強いパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 5.484132137132862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With contrastive pre-training, sentence encoders are generally optimized to
locate semantically similar samples closer to each other in their embedding
spaces. In this work, we focus on the potential of their embedding spaces to be
readily adapted to zero-shot text classification, as semantically distinct
samples are already well-separated. Our framework, RaLP (Retrieval augmented
Label Prompts for sentence encoder), encodes prompted label candidates with a
sentence encoder, then assigns the label whose prompt embedding has the highest
similarity with the input text embedding. In order to compensate for the
potentially poorly descriptive labels in their original format, RaLP retrieves
sentences that are semantically similar to the original label prompt from
external corpora and use them as additional pseudo-label prompts. RaLP achieves
competitive or stronger performance than much larger baselines on various
closed-set classification and multiple-choice QA datasets under zero-shot
settings. We show that the retrieval component plays a pivotal role in RaLP's
success, and its results are robustly attained regardless of verbalizer
variations.
- Abstract(参考訳): 対照的な事前学習では、文エンコーダは一般的に、それらの埋め込み空間において、互いに近い意味的に類似したサンプルを見つけるように最適化される。
本研究では,意味的に異なるサンプルがすでに分離されているため,組込み空間がゼロショットテキスト分類に容易に適応できる可能性に注目した。
提案手法であるralp (retrieval augmented label prompts for sentence encoder) では,提案するラベル候補を文エンコーダでエンコードし,入力文エンコーダと最も類似度の高いラベルを割り当てる。
原文のラベルを補うために、RaLPは、外部コーパスから元のラベルプロンプトと意味的に類似した文を検索し、追加の擬似ラベルプロンプトとして使用する。
RaLPは、さまざまなクローズドセット分類と、ゼロショット設定下でのマルチチョイスQAデータセットに基づいて、はるかに大きなベースラインよりも、競争力や強いパフォーマンスを達成する。
本稿では,RaLPの成功において検索成分が重要な役割を担っていることを示し,その成果は動詞のバリエーションによらずしっかりと達成されていることを示す。
関連論文リスト
- Gen-Z: Generative Zero-Shot Text Classification with Contextualized
Label Descriptions [50.92702206798324]
ゼロショットテキスト分類のための生成的プロンプトフレームワークを提案する。
GEN-Zはラベルの自然言語記述に基づく入力テキストのLM可能性を測定する。
データソースの文脈化によるゼロショット分類は、ゼロショットベースラインと少数ショットベースラインの両方を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2023-11-13T07:12:57Z) - Rank-Aware Negative Training for Semi-Supervised Text Classification [3.105629960108712]
半教師付きテキスト分類ベースのパラダイム(SSTC)は通常、自己学習の精神を用いる。
本稿では,SSTCを雑音ラベル方式で学習する上で,RNT(Range-Aware Negative Training)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-13T08:41:36Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Unsupervised Ranking and Aggregation of Label Descriptions for Zero-Shot
Classifiers [8.434227773463022]
本当のゼロショット設定では、開発セットがないため、良いラベル記述を設計することは難しい。
本研究では, ラベル記述を教師なしの方法で選択するために, 繰り返し評価分析の確率モデルをどのように利用できるかを検討する。
論文 参考訳(メタデータ) (2022-04-20T14:23:09Z) - Label Semantic Aware Pre-training for Few-shot Text Classification [53.80908620663974]
テキスト分類システムの一般化とデータ効率を向上させるために,ラベルセマンティック・アウェア事前学習(LSAP)を提案する。
LSAPは、ラベル付き文の2次事前学習を行うことにより、ラベルセマンティクスを事前学習された生成モデル(T5)に組み込む。
論文 参考訳(メタデータ) (2022-04-14T17:33:34Z) - Language-driven Semantic Segmentation [88.21498323896475]
本稿では,言語駆動型セマンティックイメージセグメンテーションの新しいモデルLSegを提案する。
テキストエンコーダを用いて記述型入力ラベルの埋め込みを計算する。
エンコーダは、画素埋め込みを対応するセマンティッククラスのテキスト埋め込みに合わせるために、対照的な目的で訓練される。
論文 参考訳(メタデータ) (2022-01-10T18:59:10Z) - Cross-domain Speech Recognition with Unsupervised Character-level
Distribution Matching [60.8427677151492]
2つの領域における各文字間の微粒化適応を行うための文字レベルの分布マッチング手法であるCMatchを提案する。
Libri-Adaptデータセットを用いた実験の結果,提案手法はクロスデバイスとクロス環境の両方で14.39%,16.50%の単語誤り率(WER)を低減できることがわかった。
論文 参考訳(メタデータ) (2021-04-15T14:36:54Z) - Unsupervised Label Refinement Improves Dataless Text Classification [48.031421660674745]
データレステキスト分類は、ラベル記述と組み合わせた文書にスコアを割り当てることで、文書を未確認のラベルに分類することができる。
有望ながら、それは重要なダウンストリームタスクごとにラベルセットの正確な説明に依存します。
この依存により、データレス分類器はラベル記述の選択に非常に敏感になり、実際にはデータレス分類の幅広い適用を妨げる。
論文 参考訳(メタデータ) (2020-12-08T03:37:50Z) - Label-Wise Document Pre-Training for Multi-Label Text Classification [14.439051753832032]
本稿では,ラベル認識情報を用いた文書表現を実現するLW-PT法を提案する。
基本的な考え方は、複数ラベルの文書は、複数のラベルの表現の組み合わせとして表すことができ、相関ラベルは、常に同じまたは類似の文書で共起するということである。
論文 参考訳(メタデータ) (2020-08-15T10:34:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。