論文の概要: In-Context Learning for Text Classification with Many Labels
- arxiv url: http://arxiv.org/abs/2309.10954v1
- Date: Tue, 19 Sep 2023 22:41:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 13:28:07.992379
- Title: In-Context Learning for Text Classification with Many Labels
- Title(参考訳): 多数のラベルを用いたテキスト分類のための文脈内学習
- Authors: Aristides Milios, Siva Reddy, Dzmitry Bahdanau
- Abstract要約: 多くのラベルを持つタスクに対して大きな言語モデルを用いたインコンテキスト学習(ICL)は、コンテキストウィンドウが限られているため困難である。
我々は、この制限を回避するために、事前訓練された高密度検索モデルを使用する。
我々は、コンテキスト内サンプルの数と異なるモデルスケールのパフォーマンスを分析します。
- 参考スコア(独自算出の注目度): 34.87532045406169
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) using large language models for tasks with many
labels is challenging due to the limited context window, which makes it
difficult to fit a sufficient number of examples in the prompt. In this paper,
we use a pre-trained dense retrieval model to bypass this limitation, giving
the model only a partial view of the full label space for each inference call.
Testing with recent open-source LLMs (OPT, LLaMA), we set new state of the art
performance in few-shot settings for three common intent classification
datasets, with no finetuning. We also surpass fine-tuned performance on
fine-grained sentiment classification in certain cases. We analyze the
performance across number of in-context examples and different model scales,
showing that larger models are necessary to effectively and consistently make
use of larger context lengths for ICL. By running several ablations, we analyze
the model's use of: a) the similarity of the in-context examples to the current
input, b) the semantic content of the class names, and c) the correct
correspondence between examples and labels. We demonstrate that all three are
needed to varying degrees depending on the domain, contrary to certain recent
works.
- Abstract(参考訳): 多くのラベルを持つタスクに対して大きな言語モデルを用いたインコンテキスト学習(ICL)は、コンテキストウィンドウが限られており、プロンプトに十分な数のサンプルを適合させることが困難である。
本稿では,事前学習された高密度検索モデルを用いて,この制限を回避し,各推論呼出の完全なラベル空間の部分的なビューのみを与える。
近年のオープンソースLLM (OPT, LLaMA) を用いて, 3つの共通の意図分類データセットに対して, ファインタニングを伴わずに, 数ショット設定でアートパフォーマンスの新たな状態を設定した。
また,特定の場合において,細粒度感情分類の微調整性能を上回った。
我々は,複数のインコンテキストサンプルと異なるモデルスケールのパフォーマンスを分析し,大規模モデルがiclのより大きなコンテキスト長を効果的かつ一貫して利用する必要があることを示した。
いくつかのアブレーションを実行することで、モデルの使い方を分析します。
a) インコンテキストの例と現在の入力との類似性
b) クラス名の意味的内容,及び
c) 例とラベルの正確な対応
最近の研究とは対照的に、3つ全てがドメインによって異なる次数を必要とすることを実証する。
関連論文リスト
- Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - FastGAS: Fast Graph-based Annotation Selection for In-Context Learning [53.17606395275021]
インコンテキスト学習(ICL)は、大規模言語モデル(LLM)に対して、一連のトレーニングインスタンスをプロンプトとして使用することにより、新しいタスクに対処する権限を与える。
既存の手法では、アノテーションのラベルなし例のサブセットを選択する方法が提案されている。
本稿では,高品質なインスタンスを効率的に識別するグラフベースの選択手法であるFastGASを提案する。
論文 参考訳(メタデータ) (2024-06-06T04:05:54Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - ArcheType: A Novel Framework for Open-Source Column Type Annotation using Large Language Models [24.867534196627222]
ArcheTypeは、コンテキストサンプリング、即時シリアライゼーション、モデルクエリ、ラベルリマッピングのための、シンプルで実用的な方法である。
ゼロショットCTAベンチマークに最先端の性能を新たに確立する。
論文 参考訳(メタデータ) (2023-10-27T15:31:22Z) - BYOC: Personalized Few-Shot Classification with Co-Authored Class
Descriptions [2.076173115539025]
LLMを用いた少数ショットテキスト分類のための新しい手法を提案する。
わずかな例ではなく、LLMは各クラスの健全な特徴を記述して誘導される。
例、質問、回答は、分類プロンプトを形成するために要約される。
論文 参考訳(メタデータ) (2023-10-09T19:37:38Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Stabilized In-Context Learning with Pre-trained Language Models for Few
Shot Dialogue State Tracking [57.92608483099916]
大規模事前学習言語モデル(PLM)は、多くのNLPタスクにまたがる優れた性能を示している。
対話状態追跡(DST)のようなより複雑なタスクでは、望ましい意図を確実に伝達するプロンプトを設計するのは簡単ではない。
対話文の長さを制限するためのサリエンシモデルを導入し、クエリ毎に多くの例を含めることができます。
論文 参考訳(メタデータ) (2023-02-12T15:05:10Z) - Semantic-Oriented Unlabeled Priming for Large-Scale Language Models [12.074766935042588]
本稿では,意味論的に類似した未ラベルの事例を検索して例を分類する手法であるSemantic-Oriented Unlabeled Priming (SOUP)を紹介する。
また、コンテクスト設定に適した新しいプライミング戦略であるbaba-of-contexts primingを提案し、コンテキストウィンドウに収まるよりも多くの例を利用できるようにした。
論文 参考訳(メタデータ) (2022-02-12T19:50:59Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。