論文の概要: Active Learning for NLP with Large Language Models
- arxiv url: http://arxiv.org/abs/2401.07367v1
- Date: Sun, 14 Jan 2024 21:00:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 18:30:50.825188
- Title: Active Learning for NLP with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたnlpのアクティブラーニング
- Authors: Xuesong Wang
- Abstract要約: アクティブラーニング(AL)テクニックは、可能な限り少数のサンプルをラベル付けして、合理的あるいは同様の結果に到達することができる。
本研究では,3つのデータセットにサンプルをラベル付けするためにLLM(Large Language Models)を使用することの正確さとコストについて検討する。
- 参考スコア(独自算出の注目度): 4.1967870107078395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human annotation of training samples is expensive, laborious, and sometimes
challenging, especially for Natural Language Processing (NLP) tasks. To reduce
the labeling cost and enhance the sample efficiency, Active Learning (AL)
technique can be used to label as few samples as possible to reach a reasonable
or similar results. To reduce even more costs and with the significant advances
of Large Language Models (LLMs), LLMs can be a good candidate to annotate
samples. This work investigates the accuracy and cost of using LLMs (GPT-3.5
and GPT-4) to label samples on 3 different datasets. A consistency-based
strategy is proposed to select samples that are potentially incorrectly labeled
so that human annotations can be used for those samples in AL settings, and we
call it mixed annotation strategy. Then we test performance of AL under two
different settings: (1) using human annotations only; (2) using the proposed
mixed annotation strategy. The accuracy of AL models under 3 AL query
strategies are reported on 3 text classification datasets, i.e., AG's News,
TREC-6, and Rotten Tomatoes. On AG's News and Rotten Tomatoes, the models
trained with the mixed annotation strategy achieves similar or better results
compared to that with human annotations. The method reveals great potentials of
LLMs as annotators in terms of accuracy and cost efficiency in active learning
settings.
- Abstract(参考訳): トレーニングサンプルの人間のアノテーションは高価で、退屈で、特に自然言語処理(NLP)タスクでは困難である。
ラベリングコストを削減し、サンプル効率を高めるために、アクティブラーニング(AL)技術は、できるだけ少数のサンプルをラベル付けして、合理的または同様の結果に達することができる。
さらにコストを削減し、LLM(Large Language Models)の大幅な進歩により、LLMはサンプルを注釈付けするのによい候補となる。
llms (gpt-3.5 と gpt-4) を用いて3つの異なるデータセットにサンプルをラベル付けする精度とコストについて検討した。
AL設定のサンプルに人為的アノテーションを使用できるように,不正確なラベル付きサンプルを選択するための一貫性ベースの戦略を提案し,これを混合アノテーション戦略と呼ぶ。
次に,(1)ヒューマンアノテーションのみを使用する,(2)提案する混合アノテーション戦略を使用する、という2つの異なる設定でalの性能をテストする。
3つのALクエリ戦略の下でのALモデルの精度は、3つのテキスト分類データセット、すなわちAGのニュース、TREC-6、Rotten Tomatoesで報告される。
AGのNewsとRotten Tomatoesでは、混合アノテーション戦略でトレーニングされたモデルは、人間のアノテーションと同様またはより良い結果が得られる。
この手法は、アクティブな学習環境における精度とコスト効率の観点から、アノテータとしてのLLMの大きな可能性を明らかにする。
関連論文リスト
- Enhancing Text Classification through LLM-Driven Active Learning and Human Annotation [2.0411082897313984]
本研究では,人間のアノテータと大規模言語モデルを統合する新しい手法を提案する。
提案フレームワークは, モデルの不確実性レベルに応じて, 人間のアノテーションとLLMの出力を統合する。
実験結果から, モデル精度の維持・改善を図りながら, データアノテーションに関連するコストを大幅に削減した。
論文 参考訳(メタデータ) (2024-06-17T21:45:48Z) - Evaluating Large Language Models for Health-Related Text Classification Tasks with Public Social Media Data [3.9459077974367833]
大規模言語モデル(LLM)は、NLPタスクにおいて顕著な成功を収めた。
我々は、サポートベクトルマシン(SVM)に基づく教師付き古典機械学習モデルと、RoBERTa、BERTweet、SocBERTに基づく3つの教師付き事前訓練言語モデル(PLM)と、6つのテキスト分類タスクで2つのLLMベースの分類器(GPT3.5、GPT4)をベンチマークした。
LLM(GPT-4)を用いた軽量教師付き分類モデルの訓練には,比較的小さな人手によるデータ拡張(GPT-4)が有効であることを示す総合的な実験を行った。
論文 参考訳(メタデータ) (2024-03-27T22:05:10Z) - Leveraging Weakly Annotated Data for Hate Speech Detection in Code-Mixed
Hinglish: A Feasibility-Driven Transfer Learning Approach with Large Language
Models [0.0]
混合コード低リソース言語におけるヘイトスピーチ検出は、大規模言語モデルの使用が有益であることが証明された活発な問題領域である。
そこで本研究では,100件のYouTubeコメントのデータセットを作成した。
すべてのアプローチにおいて、双方向自動回帰変換器(BART)を用いたゼロショット分類と、生成事前学習変換器3(ChatGPT-3)を用いた少数ショットプロンプトが最適である。
論文 参考訳(メタデータ) (2024-03-04T15:27:49Z) - LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。
我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。
LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文 参考訳(メタデータ) (2023-10-30T14:54:15Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - Prefer to Classify: Improving Text Classifiers via Auxiliary Preference
Learning [76.43827771613127]
本稿では、このような補助データアノテーションの新しい代替手段として、入力テキストのペア間のタスク固有の嗜好について検討する。
本稿では、与えられた分類課題と補助的選好の両方を学ぶことの協調効果を享受できる、P2Cと呼ばれる新しいマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T04:04:47Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Active Learning for Abstractive Text Summarization [50.79416783266641]
本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。
ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
論文 参考訳(メタデータ) (2023-01-09T10:33:14Z) - An Efficient Active Learning Pipeline for Legal Text Classification [2.462514989381979]
法律分野における事前学習言語モデルを用いて,能動的学習を効果的に活用するためのパイプラインを提案する。
我々は、知識蒸留を用いてモデルの埋め込みを意味論的意味のある空間に導く。
分類タスクに適応したContract-NLIとLEDGARベンチマークの実験により,本手法が標準AL戦略より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-15T13:07:02Z) - Reducing Confusion in Active Learning for Part-Of-Speech Tagging [100.08742107682264]
アクティブラーニング(AL)は、データ選択アルゴリズムを使用して、アノテーションコストを最小限に抑えるために有用なトレーニングサンプルを選択する。
本研究では、特定の出力タグのペア間の混乱を最大に低減するインスタンスの選択問題について検討する。
提案するAL戦略は,他のAL戦略よりも有意差で優れている。
論文 参考訳(メタデータ) (2020-11-02T06:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。