論文の概要: Keeping Humans in the Loop: Human-Centered Automated Annotation with Generative AI
- arxiv url: http://arxiv.org/abs/2409.09467v2
- Date: Sat, 21 Sep 2024 15:41:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-24 11:55:37.574014
- Title: Keeping Humans in the Loop: Human-Centered Automated Annotation with Generative AI
- Title(参考訳): 人間をループに維持する - 生成AIによる人中心の自動アノテーション
- Authors: Nicholas Pangakis, Samuel Wolken,
- Abstract要約: 我々は、GPT-4を使用して、パスワードで保護された11のデータセットに27のアノテーションタスクを複製する。
各タスクについて,人間の注釈付き接地木ラベルに対するGPT-4アノテーションと,人為的ラベルに微調整された教師付き分類モデルからのアノテーションを比較した。
本研究は,人間中心のワークフローと注意深い評価基準の重要性を裏付けるものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated text annotation is a compelling use case for generative large language models (LLMs) in social media research. Recent work suggests that LLMs can achieve strong performance on annotation tasks; however, these studies evaluate LLMs on a small number of tasks and likely suffer from contamination due to a reliance on public benchmark datasets. Here, we test a human-centered framework for responsibly evaluating artificial intelligence tools used in automated annotation. We use GPT-4 to replicate 27 annotation tasks across 11 password-protected datasets from recently published computational social science articles in high-impact journals. For each task, we compare GPT-4 annotations against human-annotated ground-truth labels and against annotations from separate supervised classification models fine-tuned on human-generated labels. Although the quality of LLM labels is generally high, we find significant variation in LLM performance across tasks, even within datasets. Our findings underscore the importance of a human-centered workflow and careful evaluation standards: Automated annotations significantly diverge from human judgment in numerous scenarios, despite various optimization strategies such as prompt tuning. Grounding automated annotation in validation labels generated by humans is essential for responsible evaluation.
- Abstract(参考訳): 自動テキストアノテーションは、ソーシャルメディア研究における生成大型言語モデル(LLM)の魅力的なユースケースである。
近年の研究では、LCMはアノテーションタスクにおいて高い性能を発揮することが示唆されているが、これらの研究は、LCMを少数のタスクで評価し、公的なベンチマークデータセットに依存するため、汚染に悩まされる可能性がある。
ここでは、自動アノテーションに使用される人工知能ツールを責任を持って評価するための、人間中心のフレームワークをテストする。
我々はGPT-4を用いて、最近発行された計算社会科学論文から11のパスワード保護データセットに27のアノテーションタスクを複製する。
各タスクについて,人間の注釈付き接地木ラベルに対するGPT-4アノテーションと,人為的ラベルに微調整された教師付き分類モデルからのアノテーションを比較した。
LLMラベルの品質は概して高いが,データセット内であっても,タスク間でのLLM性能は著しく変化している。
自動アノテーションは, アクシデントチューニングなどの最適化戦略にもかかわらず, 様々なシナリオにおいて, 人間の判断とは大きく異なる。
人間によって生成された検証ラベルに自動アノテーションを接地することは、責任ある評価に不可欠である。
関連論文リスト
- UniSumEval: Towards Unified, Fine-Grained, Multi-Dimensional Summarization Evaluation for LLMs [19.097842830790405]
要約品質評価のための既存のベンチマークでは、様々な入力シナリオが欠如し、狭い範囲に集中することが多い。
We create UniSumEval benchmark, which extends the range of input context and provide fine-fine, multi-dimensional annotations。
論文 参考訳(メタデータ) (2024-09-30T02:56:35Z) - Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - Knowledge Distillation in Automated Annotation: Supervised Text Classification with LLM-Generated Training Labels [0.0]
大規模言語モデル(LLMs)のサロゲート学習ラベルによる人為的なトレーニングデータの拡張や置き換えの可能性を評価する。
我々は,最近のCSS記事から英語テキスト分類データセットの新たなコーパスをハイインパクトジャーナルに採用している。
各タスクについて,GPT-4ラベルを用いて微調整した教師付き分類器と,人間のアノテーションで微調整した分類器と,数ショットのインコンテキスト学習によるGPT-4とMistral-7Bのラベルを比較した。
以上の結果から, LLMラベルを微調整した教師付き分類モデルは, 人間のラベルを微調整したモデルと相容れないことが示唆された。
論文 参考訳(メタデータ) (2024-06-25T15:20:25Z) - Enhancing Text Classification through LLM-Driven Active Learning and Human Annotation [2.0411082897313984]
本研究では,人間のアノテータと大規模言語モデルを統合する新しい手法を提案する。
提案フレームワークは, モデルの不確実性レベルに応じて, 人間のアノテーションとLLMの出力を統合する。
実験結果から, モデル精度の維持・改善を図りながら, データアノテーションに関連するコストを大幅に削減した。
論文 参考訳(メタデータ) (2024-06-17T21:45:48Z) - TnT-LLM: Text Mining at Scale with Large Language Models [24.731544646232962]
大規模言語モデル(LLM)は、最小限の努力でエンドツーエンドのラベル生成と割り当てのプロセスを自動化する。
我々は,TnT-LLMが最先端のベースラインと比較した場合,より正確で関連性の高いラベルを生成することを示す。
また、現実のアプリケーションにおける大規模テキストマイニングにLLMを使うことの課題と機会に関する実践的経験と洞察を共有します。
論文 参考訳(メタデータ) (2024-03-18T18:45:28Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Automated Annotation with Generative AI Requires Validation [0.0]
生成型大規模言語モデル(LLM)は、テキストアノテーションの手順を増強するための強力なツールである。
LLMのアノテーションポテンシャルを原則的かつ効率的な方法で活用するためのワークフローを概説する。
テキストアノテーションのLLM性能は有望であるが,データセットとアノテーションの型の両方に高い関連性があることが判明した。
論文 参考訳(メタデータ) (2023-05-31T20:50:45Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Not All Errors are Equal: Learning Text Generation Metrics using
Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。
既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。
SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-10-10T22:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。