論文の概要: Automated Annotation with Generative AI Requires Validation
- arxiv url: http://arxiv.org/abs/2306.00176v1
- Date: Wed, 31 May 2023 20:50:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 19:28:00.421471
- Title: Automated Annotation with Generative AI Requires Validation
- Title(参考訳): 生成AIによる自動アノテーションは検証を必要とする
- Authors: Nicholas Pangakis, Samuel Wolken, and Neil Fasching
- Abstract要約: 生成型大規模言語モデル(LLM)は、テキストアノテーションの手順を増強するための強力なツールである。
LLMのアノテーションポテンシャルを原則的かつ効率的な方法で活用するためのワークフローを概説する。
テキストアノテーションのLLM性能は有望であるが,データセットとアノテーションの型の両方に高い関連性があることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative large language models (LLMs) can be a powerful tool for augmenting
text annotation procedures, but their performance varies across annotation
tasks due to prompt quality, text data idiosyncrasies, and conceptual
difficulty. Because these challenges will persist even as LLM technology
improves, we argue that any automated annotation process using an LLM must
validate the LLM's performance against labels generated by humans. To this end,
we outline a workflow to harness the annotation potential of LLMs in a
principled, efficient way. Using GPT-4, we validate this approach by
replicating 27 annotation tasks across 11 datasets from recent social science
articles in high-impact journals. We find that LLM performance for text
annotation is promising but highly contingent on both the dataset and the type
of annotation task, which reinforces the necessity to validate on a
task-by-task basis. We make available easy-to-use software designed to
implement our workflow and streamline the deployment of LLMs for automated
annotation.
- Abstract(参考訳): 生成型大規模言語モデル(LLM)は、テキストアノテーションの手続きを増強するための強力なツールであるが、それらの性能は、迅速な品質、テキストデータの慣用性、概念上の困難によって、アノテーションタスクによって異なる。
これらの課題は、llm技術が改善しても継続するので、llmを使った自動アノテーションプロセスは、人間が生成したラベルに対するllmのパフォーマンスを検証する必要があると主張する。
この目的のために, LLMのアノテーションポテンシャルを原則的, 効率的な方法で活用するためのワークフローを概説する。
GPT-4を用いて,最近の社会科学論文の11データセットに27のアノテーションタスクを複製し,本手法の有効性を検証した。
テキストアノテーションのLCM性能は有望だが,データセットとアノテーションの型の両方に強く依存しており,タスク・バイ・タスクによる検証の必要性が強くなっている。
ワークフローを実装し、自動アノテーションのためのLLMのデプロイを合理化するように設計された使いやすいソフトウェアを利用可能にしています。
関連論文リスト
- Unsupervised Information Refinement Training of Large Language Models
for Retrieval-Augmented Generation [133.52393894760107]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - Large Language Models for Data Annotation: A Survey [58.454724454158814]
LLM(Advanced Large Language Models)の出現は、データアノテーションのプロセスに革命を起こし、自動化する前例のない機会を提供する。
この調査は、LLMベースのデータ、LLM生成アノテーションの評価、LLM生成アノテーションによる学習の3つの中核的な側面に貢献する。
重要なガイドとして、この調査は、研究者や実践者がデータアノテーションのための最新のLCMの可能性を探究することを目的としている。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - Unmemorization in Large Language Models via Self-Distillation and
Deliberate Imagination [58.36408867180233]
大規模言語モデル(LLM)は、プライバシー侵害や機密データの不要な露出といった重要な問題に苦慮している。
我々は、LLMアンラーニングの文脈において、意図的な想像力という新しいアプローチを導入する。
本研究は,異なるモデルとサイズにまたがるこのアプローチの有用性を示し,パラメータ効率の良い微調整を行った。
論文 参考訳(メタデータ) (2024-02-15T16:21:14Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Data-Centric Financial Large Language Models [27.464319154543173]
大規模言語モデル(LLM)は自然言語のタスクを約束するが、金融のような複雑なドメインに直接適用した場合に苦労する。
我々は、LLMが金融業務をよりうまく扱えるようにするために、データ中心のアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-07T04:53:31Z) - Large Language Models as Data Preprocessors [10.914067455923847]
OpenAIのGPTシリーズとMetaのLLaMAに代表されるLarge Language Models (LLMs)は、人工知能において大きな進歩を遂げている。
この研究は、LLMの応用を拡大し、データ前処理におけるその可能性を探る。
我々は,最先端のプロンプト技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T23:28:43Z) - Generating Efficient Training Data via LLM-based Attribute Manipulation [25.31066359340154]
そこで本稿では,CoTAM (Chain-of-Thoughts Attribute Manipulation) という新しい手法を提案する。
顔属性の操作にインスパイアされた本手法は,大規模言語モデルを用いてラベル変更データを生成する。
論文 参考訳(メタデータ) (2023-07-14T00:10:03Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。