論文の概要: Large Language Models for Data Annotation: A Survey
- arxiv url: http://arxiv.org/abs/2402.13446v1
- Date: Wed, 21 Feb 2024 00:44:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 17:31:23.470292
- Title: Large Language Models for Data Annotation: A Survey
- Title(参考訳): データアノテーションのための大規模言語モデル:調査
- Authors: Zhen Tan, Alimohammad Beigi, Song Wang, Ruocheng Guo, Amrita
Bhattacharjee, Bohan Jiang, Mansooreh Karami, Jundong Li, Lu Cheng, Huan Liu
- Abstract要約: LLM(Advanced Large Language Models)の出現は、データアノテーションのプロセスに革命を起こし、自動化する前例のない機会を提供する。
この調査は、LLMベースのデータ、LLM生成アノテーションの評価、LLM生成アノテーションによる学習の3つの中核的な側面に貢献する。
重要なガイドとして、この調査は、研究者や実践者がデータアノテーションのための最新のLCMの可能性を探究することを目的としている。
- 参考スコア(独自算出の注目度): 58.454724454158814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data annotation is the labeling or tagging of raw data with relevant
information, essential for improving the efficacy of machine learning models.
The process, however, is labor-intensive and expensive. The emergence of
advanced Large Language Models (LLMs), exemplified by GPT-4, presents an
unprecedented opportunity to revolutionize and automate the intricate process
of data annotation. While existing surveys have extensively covered LLM
architecture, training, and general applications, this paper uniquely focuses
on their specific utility for data annotation. This survey contributes to three
core aspects: LLM-Based Data Annotation, Assessing LLM-generated Annotations,
and Learning with LLM-generated annotations. Furthermore, the paper includes an
in-depth taxonomy of methodologies employing LLMs for data annotation, a
comprehensive review of learning strategies for models incorporating
LLM-generated annotations, and a detailed discussion on primary challenges and
limitations associated with using LLMs for data annotation. As a key guide,
this survey aims to direct researchers and practitioners in exploring the
potential of the latest LLMs for data annotation, fostering future advancements
in this critical domain. We provide a comprehensive papers list at
\url{https://github.com/Zhen-Tan-dmml/LLM4Annotation.git}.
- Abstract(参考訳): データアノテーションは、関連する情報を含む生データのラベル付けやタグ付けであり、機械学習モデルの有効性向上に不可欠である。
しかし、プロセスは労働集約的で高価である。
gpt-4で例示される先進的大規模言語モデル(llm)の出現は、データアノテーションの複雑なプロセスに革命を起こし、自動化する前例のない機会をもたらす。
既存の調査では、llmアーキテクチャ、トレーニング、一般的なアプリケーションについて広く取り上げているが、本論文は、データアノテーションの特定のユーティリティに特化している。
LLMベースのデータアノテーション、LLM生成アノテーションの評価、LLM生成アノテーションによる学習である。
さらに、データアノテーションにLLMを用いた方法論の詳細な分類、LLM生成アノテーションを取り入れたモデルの学習戦略の包括的なレビュー、データアノテーションにLLMを使用する際の主な課題と限界に関する詳細な議論を含む。
この調査は、データアノテーションのための最新のLSMの可能性を探究する研究者や実践者に対して、この重要な領域における今後の進歩を促すことを目的としている。
包括的な論文リストは \url{https://github.com/zhen-tan-dmml/llm4annotation.git} にある。
関連論文リスト
- From Selection to Generation: A Survey of LLM-based Active Learning [153.8110509961261]
大きな言語モデル(LLM)は、全く新しいデータインスタンスを生成し、よりコスト効率の良いアノテーションを提供するために使われています。
本調査は,LSMに基づくAL手法の直感的な理解を目指して,研究者や実践者の最新のリソースとして機能することを目的としている。
論文 参考訳(メタデータ) (2025-02-17T12:58:17Z) - The Evolution of LLM Adoption in Industry Data Curation Practices [20.143297690624298]
本稿では,大規模技術企業における実践者間の言語モデル(LLM)の進化について考察する。
一連の調査、インタビュー、ユーザスタディを通じて、LLMの進化において組織がどのように重要な瞬間をナビゲートしているか、タイムリーなスナップショットを提供しています。
論文 参考訳(メタデータ) (2024-12-20T17:34:16Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - A Survey of Multimodal Large Language Model from A Data-centric Perspective [46.57232264950785]
マルチモーダル大言語モデル(MLLM)は、複数のモーダルからのデータの統合と処理によって、標準的な大言語モデルの能力を高める。
データはこれらのモデルの開発と改良において重要な役割を担います。
論文 参考訳(メタデータ) (2024-05-26T17:31:21Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Large Language Models as Data Preprocessors [9.99065004972981]
大規模言語モデル (LLM) は人工知能において大きな進歩を遂げている。
本研究では、データマイニングおよび分析アプリケーションにおいて重要な段階である、データ前処理におけるその可能性について検討する。
我々は,最先端のプロンプトエンジニアリング技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T23:28:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。