論文の概要: TeSS: Zero-Shot Classification via Textual Similarity Comparison with
Prompting using Sentence Encoder
- arxiv url: http://arxiv.org/abs/2212.10391v1
- Date: Tue, 20 Dec 2022 16:18:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 15:38:26.498810
- Title: TeSS: Zero-Shot Classification via Textual Similarity Comparison with
Prompting using Sentence Encoder
- Title(参考訳): TeSS: テキスト類似性によるゼロショット分類と文エンコーダを用いたプロンプトの比較
- Authors: Jimin Hong, Jungsoo Park, Daeyoung Kim, Seongjae Choi, Bokyung Son,
and Jaewook Kang
- Abstract要約: TeSSはゼロショット分類のためのフレームワークであり、与えられたラベルは入力テキストと各候補ラベルプロンプトの埋め込み類似性によって決定される。
文エンコーダの表現を利用して,事前学習中の埋め込み空間において,意味的に類似したサンプルを互いに近接して配置する。
外部コーパスから意味論的に類似した文を検索し、元のラベルプロンプトで使用します。
- 参考スコア(独自算出の注目度): 5.484132137132862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce TeSS (Text Similarity Comparison using Sentence Encoder), a
framework for zero-shot classification where the assigned label is determined
by the embedding similarity between the input text and each candidate label
prompt. We leverage representations from sentence encoders optimized to locate
semantically similar samples closer to each other in embedding space during
pre-training. The label prompt embeddings serve as prototypes of their
corresponding class clusters. Furthermore, to compensate for the potentially
poorly descriptive labels in their original format, we retrieve semantically
similar sentences from external corpora and additionally use them with the
original label prompt (TeSS-R). TeSS outperforms strong baselines on various
closed-set and open-set classification datasets under zero-shot setting, with
further gains when combined with label prompt diversification through
retrieval. These results are robustly attained to verbalizer variations, an
ancillary benefit of using a bi-encoder. Altogether, our method serves as a
reliable baseline for zero-shot classification and a simple interface to assess
the quality of sentence encoders.
- Abstract(参考訳): 入力テキストと各候補ラベルプロンプトの埋め込み類似性により、割り当てられたラベルが決定されるゼロショット分類のためのフレームワークであるTeSS(Text similarity Comparison using Sentence Encoder)を紹介する。
文エンコーダの表現を利用して,事前学習中の埋め込み空間において,意味的に類似したサンプルを互いに近接して配置する。
ラベルプロンプト埋め込みは、対応するクラスクラスタのプロトタイプとして機能する。
さらに、原文のラベルを補うために、外部コーパスから意味論的に類似した文を検索し、原文のラベルプロンプト(TeSS-R)を付加する。
TeSSは、ゼロショット設定の下で、様々なクローズドセットとオープンセットの分類データセットの強いベースラインを上回り、検索によるラベルプロンプトの多様化と組み合わせることでさらに向上する。
これらの結果は、バイエンコーダの使用の副次的な利点である動詞化のバリエーションに対して頑健に達成される。
全体として,ゼロショット分類の信頼性の高いベースラインであり,文エンコーダの品質評価のための簡単なインタフェースである。
関連論文リスト
- Gen-Z: Generative Zero-Shot Text Classification with Contextualized
Label Descriptions [50.92702206798324]
ゼロショットテキスト分類のための生成的プロンプトフレームワークを提案する。
GEN-Zはラベルの自然言語記述に基づく入力テキストのLM可能性を測定する。
データソースの文脈化によるゼロショット分類は、ゼロショットベースラインと少数ショットベースラインの両方を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2023-11-13T07:12:57Z) - Rank-Aware Negative Training for Semi-Supervised Text Classification [3.105629960108712]
半教師付きテキスト分類ベースのパラダイム(SSTC)は通常、自己学習の精神を用いる。
本稿では,SSTCを雑音ラベル方式で学習する上で,RNT(Range-Aware Negative Training)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-13T08:41:36Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Unsupervised Ranking and Aggregation of Label Descriptions for Zero-Shot
Classifiers [8.434227773463022]
本当のゼロショット設定では、開発セットがないため、良いラベル記述を設計することは難しい。
本研究では, ラベル記述を教師なしの方法で選択するために, 繰り返し評価分析の確率モデルをどのように利用できるかを検討する。
論文 参考訳(メタデータ) (2022-04-20T14:23:09Z) - Label Semantic Aware Pre-training for Few-shot Text Classification [53.80908620663974]
テキスト分類システムの一般化とデータ効率を向上させるために,ラベルセマンティック・アウェア事前学習(LSAP)を提案する。
LSAPは、ラベル付き文の2次事前学習を行うことにより、ラベルセマンティクスを事前学習された生成モデル(T5)に組み込む。
論文 参考訳(メタデータ) (2022-04-14T17:33:34Z) - Language-driven Semantic Segmentation [88.21498323896475]
本稿では,言語駆動型セマンティックイメージセグメンテーションの新しいモデルLSegを提案する。
テキストエンコーダを用いて記述型入力ラベルの埋め込みを計算する。
エンコーダは、画素埋め込みを対応するセマンティッククラスのテキスト埋め込みに合わせるために、対照的な目的で訓練される。
論文 参考訳(メタデータ) (2022-01-10T18:59:10Z) - Cross-domain Speech Recognition with Unsupervised Character-level
Distribution Matching [60.8427677151492]
2つの領域における各文字間の微粒化適応を行うための文字レベルの分布マッチング手法であるCMatchを提案する。
Libri-Adaptデータセットを用いた実験の結果,提案手法はクロスデバイスとクロス環境の両方で14.39%,16.50%の単語誤り率(WER)を低減できることがわかった。
論文 参考訳(メタデータ) (2021-04-15T14:36:54Z) - Unsupervised Label Refinement Improves Dataless Text Classification [48.031421660674745]
データレステキスト分類は、ラベル記述と組み合わせた文書にスコアを割り当てることで、文書を未確認のラベルに分類することができる。
有望ながら、それは重要なダウンストリームタスクごとにラベルセットの正確な説明に依存します。
この依存により、データレス分類器はラベル記述の選択に非常に敏感になり、実際にはデータレス分類の幅広い適用を妨げる。
論文 参考訳(メタデータ) (2020-12-08T03:37:50Z) - Label-Wise Document Pre-Training for Multi-Label Text Classification [14.439051753832032]
本稿では,ラベル認識情報を用いた文書表現を実現するLW-PT法を提案する。
基本的な考え方は、複数ラベルの文書は、複数のラベルの表現の組み合わせとして表すことができ、相関ラベルは、常に同じまたは類似の文書で共起するということである。
論文 参考訳(メタデータ) (2020-08-15T10:34:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。