論文の概要: Enhancing LLM-Based Data Annotation with Error Decomposition
- arxiv url: http://arxiv.org/abs/2601.11920v1
- Date: Sat, 17 Jan 2026 05:43:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.376914
- Title: Enhancing LLM-Based Data Annotation with Error Decomposition
- Title(参考訳): 誤り分解によるLCMに基づくデータアノテーションの強化
- Authors: Zhen Xu, Vedant Khatri, Yijun Dai, Xiner Liu, Siyan Li, Xuanming Zhang, Renzhe Yu,
- Abstract要約: 大規模言語モデルは、データアノテーションタスクのための人間のコーディングに代わるスケーラブルな代替手段を提供する。
主観的アノテーションタスクのパフォーマンスは、一貫性が低く、エラーを起こしやすい。
モデル駆動不正確性からタスク独立性の曖昧さを分離するために,ヒューマン・イン・ザ・ループのステップを取り入れた診断評価パラダイムを提案する。
- 参考スコア(独自算出の注目度): 6.6544828402388445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models offer a scalable alternative to human coding for data annotation tasks, enabling the scale-up of research across data-intensive domains. While LLMs are already achieving near-human accuracy on objective annotation tasks, their performance on subjective annotation tasks, such as those involving psychological constructs, is less consistent and more prone to errors. Standard evaluation practices typically collapse all annotation errors into a single alignment metric, but this simplified approach may obscure different kinds of errors that affect final analytical conclusions in different ways. Here, we propose a diagnostic evaluation paradigm that incorporates a human-in-the-loop step to separate task-inherent ambiguity from model-driven inaccuracies and assess annotation quality in terms of their potential downstream impacts. We refine this paradigm on ordinal annotation tasks, which are common in subjective annotation. The refined paradigm includes: (1) a diagnostic taxonomy that categorizes LLM annotation errors along two dimensions: source (model-specific vs. task-inherent) and type (boundary ambiguity vs. conceptual misidentification); (2) a lightweight human annotation test to estimate task-inherent ambiguity from LLM annotations; and (3) a computational method to decompose observed LLM annotation errors following our taxonomy. We validate this paradigm on four educational annotation tasks, demonstrating both its conceptual validity and practical utility. Theoretically, our work provides empirical evidence for why excessively high alignment is unrealistic in specific annotation tasks and why single alignment metrics inadequately reflect the quality of LLM annotations. In practice, our paradigm can be a low-cost diagnostic tool that assesses the suitability of a given task for LLM annotation and provides actionable insights for further technical optimization.
- Abstract(参考訳): 大規模言語モデルは、データアノテーションタスクのための人間のコーディングに代わるスケーラブルな代替手段を提供し、データ集約ドメインにわたる研究のスケールアップを可能にします。
LLMは、すでに客観的なアノテーションタスクにおいて、ほぼ人間に近い精度を達成しているが、心理的な構成を含むタスクのような主観的なアノテーションタスクのパフォーマンスは、一貫性が低く、エラーを起こしやすい。
標準的な評価慣行は、すべてのアノテーションエラーを単一のアライメントメトリックに分解するが、この単純化されたアプローチは、最終的な分析結果に異なる方法で影響を及ぼす様々な種類のエラーを曖昧にする可能性がある。
そこで本研究では,モデル駆動型不正確さからタスク・インヒーレントなあいまいさを分離し,下流への潜在的影響の観点からアノテーションの品質を評価するための,ヒューマン・イン・ザ・ループのステップを組み込んだ診断評価パラダイムを提案する。
我々はこのパラダイムを、主観的アノテーションに共通する順序的アノテーションタスクに基づいて洗練する。
改良されたパラダイムは,(1) LLMアノテーションの誤りを分類する診断分類法,(2) LLMアノテーションからタスク非一貫性の曖昧さを推定するための軽量な人為的アノテーション試験,(3) LLMアノテーションの誤りを分類後分解する計算方法,の2つの次元に沿って分類する。
このパラダイムを4つの教育的アノテーションタスクで検証し、その概念的妥当性と実用性の両方を実証する。
理論的には、我々の研究は、特定のアノテーションタスクにおいて過剰に高いアライメントが非現実的である理由と、単一アライメントのメトリクスがLLMアノテーションの品質を不適切に反映している理由を実証的な証拠を提供している。
我々のパラダイムは、LLMアノテーションに対する与えられたタスクの適合性を評価し、さらなる技術的最適化のための実用的な洞察を提供する、低コストな診断ツールである。
関連論文リスト
- Fine-Grained Detection of Context-Grounded Hallucinations Using LLMs [16.173245551933178]
コンテキストグラウンドド・幻覚(Context-grounded hallucination)は、モデル出力がソーステキストに対して検証できない情報を含む場合である。
このような幻覚を局在化するためのLCMの適用性について検討する。
論文 参考訳(メタデータ) (2025-09-26T17:03:24Z) - Can Reasoning Help Large Language Models Capture Human Annotator Disagreement? [84.32752330104775]
ヒトのアノテーションの変化(つまり不一致)は、NLPでは一般的である。
異なる推論条件が大言語モデルの不一致モデルに与える影響を評価する。
意外なことに、RLVRスタイルの推論は不一致モデリングにおいて性能を低下させる。
論文 参考訳(メタデータ) (2025-06-24T09:49:26Z) - Utility-Focused LLM Annotation for Retrieval and Retrieval-Augmented Generation [96.18720164390699]
本稿では,大規模言語モデル (LLM) を用いた検索・検索・拡張生成システム (RAG) の訓練における文書ユーティリティのアノテートについて検討する。
以上の結果から,LLM生成アノテーションは,人間のアノテーションや下流QAメトリクスのみを訓練したモデルと比較して,ドメイン外検索性能の向上とRAG結果の改善を図っている。
論文 参考訳(メタデータ) (2025-04-07T16:05:52Z) - To Err Is Human; To Annotate, SILICON? Reducing Measurement Error in LLM Annotation [11.470318058523466]
大規模言語モデル(LLM)は、人間のアノテーションに代わる費用対効果の高いスケーラブルな代替を約束する。
LLMアノテーションから測定誤差を体系的に低減するSILICON手法を開発した。
この証拠は,各エラー源の削減が必要であり,SILICONは管理研究において厳密なアノテーションをサポートしていることを示唆している。
論文 参考訳(メタデータ) (2024-12-19T02:21:41Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Revisiting Unsupervised Meta-Learning: Amplifying or Compensating for
the Characteristics of Few-Shot Tasks [30.893785366366078]
我々は,限られたデータを用いて視覚認識システムを構築する,少数ショット画像分類への実践的アプローチを開発した。
基本クラスセットラベルは不要であり、識別的埋め込みは教師なしの方法でメタ学習される可能性がある。
数ショットの学習ベンチマークの実験では、従来の手法よりも4~10%のパフォーマンス差で、アプローチが優れていることが確認された。
論文 参考訳(メタデータ) (2020-11-30T10:08:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。