論文の概要: To Err Is Human; To Annotate, SILICON? Reducing Measurement Error in LLM Annotation
- arxiv url: http://arxiv.org/abs/2412.14461v3
- Date: Thu, 16 Oct 2025 18:12:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 13:49:08.536371
- Title: To Err Is Human; To Annotate, SILICON? Reducing Measurement Error in LLM Annotation
- Title(参考訳): SILICON は人間である? : LLM アノテーションにおける測定誤差の低減
- Authors: Xiang Cheng, Raveesh Mayya, João Sedoc,
- Abstract要約: 大規模言語モデル(LLM)は、人間のアノテーションに代わる費用対効果の高いスケーラブルな代替を約束する。
LLMアノテーションから測定誤差を体系的に低減するSILICON手法を開発した。
この証拠は,各エラー源の削減が必要であり,SILICONは管理研究において厳密なアノテーションをサポートしていることを示唆している。
- 参考スコア(独自算出の注目度): 11.470318058523466
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Unstructured text data annotation is foundational to management research and Large Language Models (LLMs) promise a cost-effective and scalable alternative to human annotation. The validity of insights drawn from LLM annotated data critically depends on minimizing the discrepancy between LLM assigned labels and the unobserved ground truth, as well as ensuring long-term reproducibility of results. We address the gap in the literature on LLM annotation by decomposing measurement error in LLM-based text annotation into four distinct sources: (1) guideline-induced error from inconsistent annotation criteria, (2) baseline-induced error from unreliable human reference standards, (3) prompt-induced error from suboptimal meta-instruction formatting, and (4) model-induced error from architectural differences across LLMs. We develop the SILICON methodology to systematically reduce measurement error from LLM annotation in all four sources above. Empirical validation across seven management research cases shows iteratively refined guidelines substantially increases the LLM-human agreement compared to one-shot guidelines; expert-generated baselines exhibit higher inter-annotator agreement as well as are less prone to producing misleading LLM-human agreement estimates compared to crowdsourced baselines; placing content in the system prompt reduces prompt-induced error; and model performance varies substantially across tasks. To further reduce error, we introduce a cost-effective multi-LLM labeling method, where only low-confidence items receive additional labels from alternative models. Finally, in addressing closed source model retirement cycles, we introduce an intuitive regression-based methodology to establish robust reproducibility protocols. Our evidence indicates that reducing each error source is necessary, and that SILICON supports reproducible, rigorous annotation in management research.
- Abstract(参考訳): 非構造化テキストデータアノテーションはマネジメント研究の基礎であり、LLM(Large Language Models)は人間のアノテーションに代わる費用対効果とスケーラビリティを約束する。
LLMアノテートデータから得られた洞察の妥当性は、LLMアサインされたラベルと保存されていない真実との相違を最小限に抑え、結果の長期再現性を確保することに依存する。
LLM テキストアノテーションにおける測定誤差を,(1) 一貫性のない基準基準からのガイドライン誘発誤差,(2) 信頼できない基準からのベースライン誘発誤差,(3) 準最適メタインストラクションフォーマットからのプロンプト誘発誤差,(4) LLM 間のアーキテクチャ的違いからのモデル誘発誤差の4つに分解することで,LCM アノテーションに関する文献のギャップを解消する。
上述の4つの情報源すべてにおいて,LLMアノテーションから測定誤差を体系的に低減するSILICON手法を開発した。
7つの経営研究事例における実証的検証では、反復的に改良されたガイドラインは、1ショットのガイドラインと比較してLLM-人的合意を著しく増加させ、専門家が作成したベースラインはアノテータ間の合意を高くし、クラウドソースされたベースラインに比べて誤解を招くLLM-人的合意の見積もりを生成する傾向が低い。
誤りの低減を図るため,コスト効率のよいマルチLLMラベリング手法を導入し,低信頼度項目のみ代替モデルからラベルを付加する手法を提案する。
最後に、ソースモデルのリタイアサイクルに対処する際、頑健な再現性プロトコルを確立するための直感的な回帰に基づく方法論を導入する。
この証拠は,各エラー源の削減が必要であり,SILICONが管理研究において再現性,厳密なアノテーションをサポートすることを示唆している。
関連論文リスト
- IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - AI-Driven Scholarly Peer Review via Persistent Workflow Prompting, Meta-Prompting, and Meta-Reasoning [0.0]
本稿では,PWP(Persistent Prompting)について紹介する。
本稿では,実験化学原稿の批判的分析のための概念実証PWPプロンプトを提案する。
我々は,このPWPプロンプトを,専門家レビューの体系化を目的としたメタプロンプト技術とメタ推論の反復的適用により開発する。
論文 参考訳(メタデータ) (2025-05-06T09:06:18Z) - From Prompts to Templates: A Systematic Prompt Template Analysis for Real-world LLMapps [20.549178260624043]
大規模言語モデル(LLM)は、自然言語のプロンプトを通じて直感的なタスク実行を可能にすることで、人間とAIのインタラクションに革命をもたらした。
構造や単語の小さなバリエーションは、出力に大きな違いをもたらす可能性がある。
本稿では,実用LLMappにおけるプロンプトテンプレートの包括的解析について述べる。
論文 参考訳(メタデータ) (2025-04-02T18:20:06Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - A Framework for Using LLMs for Repository Mining Studies in Empirical Software Engineering [12.504438766461027]
大規模言語モデル(LLM)は、ソフトウェアリポジトリを分析する革新的な方法を提供することで、ソフトウェア工学(SE)を変革した。
私たちの研究は、PRIMES(Prompt Refinement and Insights for Mining Empirical Software repository)というフレームワークをまとめています。
この結果,PRIMESの標準化により,LLMを用いた研究の信頼性と精度が向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-15T06:08:57Z) - The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities [0.35998666903987897]
本稿では,Large Language Models (LLM) の微調整について検討する。
従来の自然言語処理(NLP)モデルから、AIにおける彼らの重要な役割まで、LLMの歴史的進化を概説している。
本報告では, 微調整LDMのための構造化7段パイプラインについて紹介する。
論文 参考訳(メタデータ) (2024-08-23T14:48:02Z) - Leveraging the Power of LLMs: A Fine-Tuning Approach for High-Quality Aspect-Based Summarization [25.052557735932535]
大規模言語モデル(LLM)は、自然言語処理における多様なタスクに革命をもたらす可能性を実証している。
本稿ではアスペクトベース要約タスクにおける微調整LDMの可能性について検討する。
我々は,Llama2,Mistral,Gemma,Ayaなどオープンソースファウンデーションの微調整が,パブリックドメイン固有のアスペクトベース要約データセットに与える影響を評価する。
論文 参考訳(メタデータ) (2024-08-05T16:00:21Z) - Systematic Task Exploration with LLMs: A Study in Citation Text Generation [63.50597360948099]
大規模言語モデル(LLM)は、複雑な創造的自然言語生成(NLG)タスクの定義と実行において、前例のない柔軟性をもたらす。
本稿では,系統的な入力操作,参照データ,出力測定からなる3成分研究フレームワークを提案する。
我々はこのフレームワークを用いて引用テキスト生成を探索する。これは一般的なNLPタスクであり、タスク定義と評価基準に関するコンセンサスを欠いている。
論文 参考訳(メタデータ) (2024-07-04T16:41:08Z) - RePrompt: Planning by Automatic Prompt Engineering for Large Language Models Agents [27.807695570974644]
LLMエージェントに与えられたプロンプトのステップバイステップ命令を最適化するために、段階的な降下を行う新しい方法、textscRePromptを提案する。
中間的なフィードバックを活用することで、 textscRePromptは最終的なソリューションチェッカーを必要とせずにプロンプトを最適化できる。
論文 参考訳(メタデータ) (2024-06-17T01:23:11Z) - Improve Temporal Awareness of LLMs for Sequential Recommendation [61.723928508200196]
大規模言語モデル(LLM)は、幅広い汎用タスクを解く際、印象的なゼロショット能力を示した。
LLMは時間的情報の認識と利用に不足しており、シーケンシャルなデータの理解を必要とするタスクではパフォーマンスが悪い。
LLMに基づくシーケンシャルレコメンデーションのために、歴史的相互作用の中で時間情報を利用する3つのプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-05-05T00:21:26Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Large Language Models for Data Annotation and Synthesis: A Survey [49.8318827245266]
本調査は,データアノテーションと合成のための大規模言語モデルの有用性に焦点を当てる。
LLMがアノテートできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略のレビュー、データアノテーションと合成にLLMを使用する際の主な課題と制限に関する詳細な議論を含む。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - ALLURE: Auditing and Improving LLM-based Evaluation of Text using
Iterative In-Context-Learning [7.457517083017178]
大規模言語モデル(LLM)は、人間やAIが生成するテキストの評価に使用される。
実用性にもかかわらず、LSMは異なる障害モードを示し、徹底的な監査とテキスト評価機能の改善が必要である。
ここでは、大規模な言語モデルを理解するための体系的なアプローチであるALLUREを紹介します。
論文 参考訳(メタデータ) (2023-09-24T17:15:58Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。