論文の概要: Exploring Small Language Models with Prompt-Learning Paradigm for
Efficient Domain-Specific Text Classification
- arxiv url: http://arxiv.org/abs/2309.14779v1
- Date: Tue, 26 Sep 2023 09:24:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 14:24:46.509820
- Title: Exploring Small Language Models with Prompt-Learning Paradigm for
Efficient Domain-Specific Text Classification
- Title(参考訳): 効率的なドメイン特化テキスト分類のためのプロンプト学習パラダイムを用いた小言語モデルの探索
- Authors: Hengyu Luo, Peng Liu, Stefan Esping
- Abstract要約: 小型言語モデル(SLM)は、ドメイン固有のタスクに対して、大幅なカスタマイズ性、適応性、コスト効率を提供する。
プロンプトベースのモデル微調整が可能となる場合、T5ベースは220Mパラメータを持つ典型的なSLMであり、ラベル付きデータで約75%の精度が得られる。
固定モデルを用いたゼロショット設定では、約154Bのパラメータを備えたGPT-3.5-turboが55.16%の精度を持つにもかかわらず、よく設計されたプロンプトのパワーが明らかになるという重要な観察結果が得られた。
- 参考スコア(独自算出の注目度): 2.410463233396231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Domain-specific text classification faces the challenge of scarce labeled
data due to the high cost of manual labeling. Prompt-learning, known for its
efficiency in few-shot scenarios, is proposed as an alternative to traditional
fine-tuning methods. And besides, although large language models (LLMs) have
gained prominence, small language models (SLMs, with under 1B parameters) offer
significant customizability, adaptability, and cost-effectiveness for
domain-specific tasks, given industry constraints. In this study, we
investigate the potential of SLMs combined with prompt-learning paradigm for
domain-specific text classification, specifically within customer-agent
interactions in retail. Our evaluations show that, in few-shot settings when
prompt-based model fine-tuning is possible, T5-base, a typical SLM with 220M
parameters, achieve approximately 75% accuracy with limited labeled data (up to
15% of full data), which shows great potentials of SLMs with prompt-learning.
Based on this, We further validate the effectiveness of active few-shot
sampling and the ensemble strategy in the prompt-learning pipeline that
contribute to a remarkable performance gain. Besides, in zero-shot settings
with a fixed model, we underscore a pivotal observation that, although the
GPT-3.5-turbo equipped with around 154B parameters garners an accuracy of
55.16%, the power of well designed prompts becomes evident when the
FLAN-T5-large, a model with a mere 0.5% of GPT-3.5-turbo's parameters, achieves
an accuracy exceeding 31% with the optimized prompt, a leap from its sub-18%
performance with an unoptimized one. Our findings underscore the promise of
prompt-learning in classification tasks with SLMs, emphasizing the benefits of
active few-shot sampling, and ensemble strategies in few-shot settings, and the
importance of prompt engineering in zero-shot settings.
- Abstract(参考訳): ドメイン固有のテキスト分類は、手動ラベリングのコストが高いため、ラベル付きデータの不足に直面する。
プロンプト学習(Prompt-learning)は、従来の微調整手法の代替として提案されている。
さらに、大きな言語モデル(LLM)は有名になったが、SLM(Small Language Model)は、業界の制約を前提として、大きなカスタマイズ性、適応性、コスト効率を提供する。
本研究では,SLMとドメイン固有テキスト分類の素早い学習パラダイムの組み合わせ,特に小売業における顧客とエージェントの相互作用の可能性について検討する。
220Mパラメータを持つ典型的なSLMであるT5-baseは,プロンプトベースモデルの微調整が可能な場合,ラベル付きデータ(全データの最大15%)で約75%の精度を達成し,プロンプト学習によるSLMの潜在可能性を示した。
そこで本研究では,能動型数発サンプリングの有効性と,優れた性能向上に寄与する素早い学習パイプラインにおけるアンサンブル戦略の有効性をさらに検証する。
さらに,固定モデルを用いたゼロショット設定では,約154Bパラメータを備えたGPT-3.5-turboが55.16%の精度を持つにもかかわらず,FLAN-T5-large(GPT-3.5-turboのパラメータのわずか0.5%)のモデルであるFLAN-T5-largeが,最適化されたプロンプトで31%を超える精度を達成し,最適化されていないプロンプトで18%未満のパフォーマンスから飛躍的に向上することを示す。
本研究は,SLMを用いた分類タスクにおける即時学習の可能性を強調し,複数ショットサンプリングとアンサンブル戦略の利点を強調し,ゼロショット設定における即時エンジニアリングの重要性を強調した。
関連論文リスト
- Low-resource classification of mobility functioning information in
clinical sentences using large language models [0.0]
本研究は,臨床ノートから機能的情報の存在を正確に識別する,公開可能な大規模言語モデル(LLM)の能力を評価するものである。
我々は,n2c2臨床ノートから算出したモビリティNERデータセットから,1000文のバランスの取れたバイナリ分類データセットを収集した。
論文 参考訳(メタデータ) (2023-12-15T20:59:17Z) - Large language models for aspect-based sentiment analysis [0.0]
GPT-4 と GPT-3.5 の性能をゼロショット, 少ないショット, 微調整で評価した。
微調整 GPT-3.5 は、共同アスペクト項抽出と極性分類タスクにおいて最先端の F1 スコア 83.8 を達成する。
論文 参考訳(メタデータ) (2023-10-27T10:03:21Z) - ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [52.14681890859275]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。
BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。
本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z) - Investigating the Limitation of CLIP Models: The Worst-Performing
Categories [53.360239882501325]
コントラスト言語-画像事前学習(CLIP)は、自然言語を視覚概念に統合する基礎モデルを提供する。
通常、十分に設計されたテキストプロンプトによって、多くの領域で満足な全体的な精度が達成できると期待されている。
しかし、最悪のカテゴリにおけるパフォーマンスは、全体的なパフォーマンスよりも著しく劣っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T05:37:33Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。
IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-06-04T10:08:50Z) - LiST: Lite Self-training Makes Efficient Few-shot Learners [91.28065455714018]
LiSTは古典的な微調整法よりも35%改善し、プロンプトチューニングよりも6%改善した。
論文 参考訳(メタデータ) (2021-10-12T18:47:18Z) - Prompt-Learning for Fine-Grained Entity Typing [40.983849729537795]
完全教師付き,少数ショット,ゼロショットシナリオにおける微粒化エンティティタイピングに対するプロンプトラーニングの適用について検討する。
本稿では,エンティティタイプの情報を自動的に要約するために,プロンプトラーニングにおける分布レベルの最適化を行う自己教師型戦略を提案する。
論文 参考訳(メタデータ) (2021-08-24T09:39:35Z) - Making Pre-trained Language Models Better Few-shot Learners [11.90626040104822]
最近のGPT-3モデルは、自然言語プロンプトといくつかのタスクデモンストレーションを入力コンテキストとして活用することで、驚くべき数ショットパフォーマンスを実現します。
これらの知見に触発されて,より実用的なシナリオで,微調整が計算効率のよい小型言語モデルを用いて,小数点学習の研究を行った。
LM-BFF - 少数の注釈付き例で、言語モデルの微調整のためのシンプルで補完的な技術のスイート - 言語モデルのより良い少数ショット微調整を提示します。
論文 参考訳(メタデータ) (2020-12-31T17:21:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。