論文の概要: Large Language Models for Data Annotation: A Survey
- arxiv url: http://arxiv.org/abs/2402.13446v1
- Date: Wed, 21 Feb 2024 00:44:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 17:31:23.470292
- Title: Large Language Models for Data Annotation: A Survey
- Title(参考訳): データアノテーションのための大規模言語モデル:調査
- Authors: Zhen Tan, Alimohammad Beigi, Song Wang, Ruocheng Guo, Amrita
Bhattacharjee, Bohan Jiang, Mansooreh Karami, Jundong Li, Lu Cheng, Huan Liu
- Abstract要約: LLM(Advanced Large Language Models)の出現は、データアノテーションのプロセスに革命を起こし、自動化する前例のない機会を提供する。
この調査は、LLMベースのデータ、LLM生成アノテーションの評価、LLM生成アノテーションによる学習の3つの中核的な側面に貢献する。
重要なガイドとして、この調査は、研究者や実践者がデータアノテーションのための最新のLCMの可能性を探究することを目的としている。
- 参考スコア(独自算出の注目度): 58.454724454158814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data annotation is the labeling or tagging of raw data with relevant
information, essential for improving the efficacy of machine learning models.
The process, however, is labor-intensive and expensive. The emergence of
advanced Large Language Models (LLMs), exemplified by GPT-4, presents an
unprecedented opportunity to revolutionize and automate the intricate process
of data annotation. While existing surveys have extensively covered LLM
architecture, training, and general applications, this paper uniquely focuses
on their specific utility for data annotation. This survey contributes to three
core aspects: LLM-Based Data Annotation, Assessing LLM-generated Annotations,
and Learning with LLM-generated annotations. Furthermore, the paper includes an
in-depth taxonomy of methodologies employing LLMs for data annotation, a
comprehensive review of learning strategies for models incorporating
LLM-generated annotations, and a detailed discussion on primary challenges and
limitations associated with using LLMs for data annotation. As a key guide,
this survey aims to direct researchers and practitioners in exploring the
potential of the latest LLMs for data annotation, fostering future advancements
in this critical domain. We provide a comprehensive papers list at
\url{https://github.com/Zhen-Tan-dmml/LLM4Annotation.git}.
- Abstract(参考訳): データアノテーションは、関連する情報を含む生データのラベル付けやタグ付けであり、機械学習モデルの有効性向上に不可欠である。
しかし、プロセスは労働集約的で高価である。
gpt-4で例示される先進的大規模言語モデル(llm)の出現は、データアノテーションの複雑なプロセスに革命を起こし、自動化する前例のない機会をもたらす。
既存の調査では、llmアーキテクチャ、トレーニング、一般的なアプリケーションについて広く取り上げているが、本論文は、データアノテーションの特定のユーティリティに特化している。
LLMベースのデータアノテーション、LLM生成アノテーションの評価、LLM生成アノテーションによる学習である。
さらに、データアノテーションにLLMを用いた方法論の詳細な分類、LLM生成アノテーションを取り入れたモデルの学習戦略の包括的なレビュー、データアノテーションにLLMを使用する際の主な課題と限界に関する詳細な議論を含む。
この調査は、データアノテーションのための最新のLSMの可能性を探究する研究者や実践者に対して、この重要な領域における今後の進歩を促すことを目的としている。
包括的な論文リストは \url{https://github.com/zhen-tan-dmml/llm4annotation.git} にある。
関連論文リスト
- Unsupervised Information Refinement Training of Large Language Models
for Retrieval-Augmented Generation [133.52393894760107]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [64.33702161898469]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。
我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。
LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文 参考訳(メタデータ) (2023-10-30T14:54:15Z) - Utilising a Large Language Model to Annotate Subject Metadata: A Case
Study in an Australian National Research Data Catalogue [18.325675189960833]
オープンで再現可能な研究をサポートするために、研究のために利用可能なデータセットが急速に増えている。
データセットの可用性が向上するにつれて、それらの発見と再利用のための品質メタデータを持つことがより重要になる。
本稿では,LLMに基づくインコンテキスト学習を通じて,大規模言語モデル(LLM)を用いて,主題メタデータのコスト効率のよいアノテーションを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:52:33Z) - Large Language Models as Data Preprocessors [10.914067455923847]
OpenAIのGPTシリーズとMetaのLLaMAに代表されるLarge Language Models (LLMs)は、人工知能において大きな進歩を遂げている。
この研究は、LLMの応用を拡大し、データ前処理におけるその可能性を探る。
我々は,最先端のプロンプト技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T23:28:43Z) - Automated Annotation with Generative AI Requires Validation [0.0]
生成型大規模言語モデル(LLM)は、テキストアノテーションの手順を増強するための強力なツールである。
LLMのアノテーションポテンシャルを原則的かつ効率的な方法で活用するためのワークフローを概説する。
テキストアノテーションのLLM性能は有望であるが,データセットとアノテーションの型の両方に高い関連性があることが判明した。
論文 参考訳(メタデータ) (2023-05-31T20:50:45Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。