論文の概要: Can We Hide Machines in the Crowd? Quantifying Equivalence in LLM-in-the-loop Annotation Tasks
- arxiv url: http://arxiv.org/abs/2510.06658v1
- Date: Wed, 08 Oct 2025 05:17:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.310458
- Title: Can We Hide Machines in the Crowd? Quantifying Equivalence in LLM-in-the-loop Annotation Tasks
- Title(参考訳): 群衆にマシンを隠せるか? LLM-in-the-loop アノテーションにおける等価性の定量化
- Authors: Jiaman He, Zikang Leng, Dana McKay, Damiano Spina, Johanne R. Trippas,
- Abstract要約: 我々は、人間とLLMの両方によるラベル付け決定が、個人間で統計的に評価される方法について検討することを目指している。
Krippendorffの$alpha$, paired bootstrapping, and the Two One-Sided t-Tests (TOST) equivalence test procedureに基づく統計的評価法を開発した。
このアプローチをMovieLens 100K と PolitiFact という2つのデータセットに適用すると、LCM が前者の人間のアノテーションと統計的に区別できないことが分かる。
- 参考スコア(独自算出の注目度): 8.246529401043128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many evaluations of large language models (LLMs) in text annotation focus primarily on the correctness of the output, typically comparing model-generated labels to human-annotated ``ground truth'' using standard performance metrics. In contrast, our study moves beyond effectiveness alone. We aim to explore how labeling decisions -- by both humans and LLMs -- can be statistically evaluated across individuals. Rather than treating LLMs purely as annotation systems, we approach LLMs as an alternative annotation mechanism that may be capable of mimicking the subjective judgments made by humans. To assess this, we develop a statistical evaluation method based on Krippendorff's $\alpha$, paired bootstrapping, and the Two One-Sided t-Tests (TOST) equivalence test procedure. This evaluation method tests whether an LLM can blend into a group of human annotators without being distinguishable. We apply this approach to two datasets -- MovieLens 100K and PolitiFact -- and find that the LLM is statistically indistinguishable from a human annotator in the former ($p = 0.004$), but not in the latter ($p = 0.155$), highlighting task-dependent differences. It also enables early evaluation on a small sample of human data to inform whether LLMs are suitable for large-scale annotation in a given application.
- Abstract(参考訳): テキストアノテーションにおける大規模言語モデル (LLM) の評価の多くは、主に出力の正確さに焦点を当てており、モデル生成ラベルと標準的なパフォーマンス指標を用いた人間の注釈付き ‘ground truth'' との比較が一般的である。
対照的に、我々の研究は効果のみに留まらない。
我々は、人間とLLMの両方によるラベル付け決定が、個人間で統計的に評価される方法について検討することを目指している。
LLMを純粋にアノテーションシステムとして扱うのではなく、人間の主観的判断を模倣できる代替的なアノテーションメカニズムとしてLLMにアプローチする。
これを評価するため,Krippendorff の $\alpha$, paired bootstrapping および Two One-Sided t-Tests (TOST) 等価性試験法に基づく統計的評価法を開発した。
この評価法は、LLMが識別不能なヒトアノテータのグループにブレンドできるかどうかを検査する。
このアプローチをMovieLens 100K と PolitiFact という2つのデータセットに適用すると、LLM は以前の (p = 0.004$) のアノテータと統計的に区別できないが、後者 (p = 0.155$) では、タスク依存の違いを強調している。
また、人間の小さなサンプルを早期に評価し、LLMが与えられたアプリケーションで大規模なアノテーションに適しているかどうかを知らせる。
関連論文リスト
- Just Put a Human in the Loop? Investigating LLM-Assisted Annotation for Subjective Tasks [18.695435335031355]
複数のもっともらしい回答を持つ主観的アノテーションタスクでは、LCM出力のレビューはラベルの分布を変えることができる。
410種類のアノテーションと7000以上のアノテーションを用いた事前登録実験を行った。
その結果, LLM によるアノテーション提案をクラウドワーカーに提示することは, より迅速ではなく, 自己報告によるタスクへの信頼感を向上させることができた。
論文 参考訳(メタデータ) (2025-07-21T17:29:21Z) - The Alternative Annotator Test for LLM-as-a-Judge: How to Statistically Justify Replacing Human Annotators with LLMs [21.97227334180969]
LLM-as-an-judge」パラダイムは、人間が伝統的に行ってきたタスクにおいて、アノテータ、審査員、評価役としてLarge Language Models(LLM)を用いる。
研究結果や洞察を形成する上での役割にもかかわらず、LLMがヒトのアノテーターを置き換えることができるかどうかを判断するための標準的あるいは厳格な手順は存在しない。
LLMアノテーションの使用を正当化するために、アノテーション付きサンプルの控えめなサブセットだけを必要とする新しい統計手法である代替アノテーションテスト(alt-test)を提案する。
論文 参考訳(メタデータ) (2025-01-19T07:09:11Z) - PiCO: Peer Review in LLMs based on the Consistency Optimization [48.48819141999387]
ピアレビュー機構を用いて,大規模言語モデル(LLM)を自動的に測定する。
制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化することを目的としている。
我々はPEN, CIN, LISという3つの指標を提案し, ランク付けのギャップを評価する。
論文 参考訳(メタデータ) (2024-02-02T18:49:26Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。