論文の概要: Language Models for Text Classification: Is In-Context Learning Enough?
- arxiv url: http://arxiv.org/abs/2403.17661v2
- Date: Sun, 14 Apr 2024 15:45:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 20:00:41.607990
- Title: Language Models for Text Classification: Is In-Context Learning Enough?
- Title(参考訳): テキスト分類のための言語モデル:インテクスト学習は十分か?
- Authors: Aleksandra Edwards, Jose Camacho-Collados,
- Abstract要約: 最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
- 参考スコア(独自算出の注目度): 54.869097980761595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent foundational language models have shown state-of-the-art performance in many NLP tasks in zero- and few-shot settings. An advantage of these models over more standard approaches based on fine-tuning is the ability to understand instructions written in natural language (prompts), which helps them generalise better to different tasks and domains without the need for specific training data. This makes them suitable for addressing text classification problems for domains with limited amounts of annotated instances. However, existing research is limited in scale and lacks understanding of how text generation models combined with prompting techniques compare to more established methods for text classification such as fine-tuning masked language models. In this paper, we address this research gap by performing a large-scale evaluation study for 16 text classification datasets covering binary, multiclass, and multilabel problems. In particular, we compare zero- and few-shot approaches of large language models to fine-tuning smaller language models. We also analyse the results by prompt, classification type, domain, and number of labels. In general, the results show how fine-tuning smaller and more efficient language models can still outperform few-shot approaches of larger language models, which have room for improvement when it comes to text classification.
- Abstract(参考訳): 最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
微調整に基づくより標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompt)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
しかし、既存の研究は規模が限られており、テキスト生成モデルとプロンプト技術を組み合わせる方法の理解に欠けており、微調整されたマスキング言語モデルのようなより確立されたテキスト分類方法と比較されている。
本稿では,バイナリ,マルチクラス,マルチラベルを対象とする16のテキスト分類データセットについて,大規模な評価研究を行うことにより,この研究ギャップに対処する。
特に、大きな言語モデルのゼロショットと少数ショットのアプローチと、より小さな言語モデルの微調整を比較した。
また,プロンプト,分類タイプ,ドメイン数,ラベル数などを用いて分析を行った。
概して、より小型で効率的な言語モデルが、テキスト分類に関して改善の余地のある、より大きな言語モデルの数ショットのアプローチよりも優れていることを示す。
関連論文リスト
- Are Large Language Models Robust Coreference Resolvers? [17.60248310475889]
我々は、コア参照のプロンプトが、現在の教師なしコア参照システムより優れていることを示す。
さらなる調査により、命令調整されたLMが驚くほどドメイン、言語、時間にまたがって一般化されることが判明した。
論文 参考訳(メタデータ) (2023-05-23T19:38:28Z) - TabLLM: Few-shot Classification of Tabular Data with Large Language
Models [66.03023402174138]
大規模言語モデルのゼロショットおよび少数ショット分類への応用について検討する。
テンプレートやテーブル・ツー・テキストモデル,大規模言語モデルなど,いくつかのシリアライズ手法を評価する。
このアプローチは、勾配木のような強力な伝統的なベースラインとも競合する。
論文 参考訳(メタデータ) (2022-10-19T17:08:13Z) - ALLWAS: Active Learning on Language models in WASserstein space [13.35098213857704]
医学などのいくつかの領域では、ラベル付きトレーニングデータの不足が一般的な問題である。
アクティブな学習は、ラベルの予算が限られている場合、パフォーマンスを高めるのに役立ちます。
言語モデルにおけるアクティブ学習のためのサブモジュール最適化と最適輸送に基づくサンプリング手法を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-03T18:11:07Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。