論文の概要: Evaluating Large Language Models as Expert Annotators
- arxiv url: http://arxiv.org/abs/2508.07827v1
- Date: Mon, 11 Aug 2025 10:19:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.042191
- Title: Evaluating Large Language Models as Expert Annotators
- Title(参考訳): エキスパートアノテーションとしての大規模言語モデルの評価
- Authors: Yu-Min Tseng, Wei-Lin Chen, Chung-Chi Chen, Hsin-Hsi Chen,
- Abstract要約: 本稿では,トップパフォーマンス言語モデルが,人間の専門家アノテータの直接的な代替として機能するかどうかを考察する。
我々は、金融、バイオメディシン、法という3つの専門分野にまたがる個別のLCMとマルチエージェントのアプローチを評価した。
実験結果から,推定時間的手法を具備した個々のLSMは,限界あるいは負の利得しか示さないことが明らかとなった。
- 参考スコア(独自算出の注目度): 17.06186816803593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Textual data annotation, the process of labeling or tagging text with relevant information, is typically costly, time-consuming, and labor-intensive. While large language models (LLMs) have demonstrated their potential as direct alternatives to human annotators for general domains natural language processing (NLP) tasks, their effectiveness on annotation tasks in domains requiring expert knowledge remains underexplored. In this paper, we investigate: whether top-performing LLMs, which might be perceived as having expert-level proficiency in academic and professional benchmarks, can serve as direct alternatives to human expert annotators? To this end, we evaluate both individual LLMs and multi-agent approaches across three highly specialized domains: finance, biomedicine, and law. Specifically, we propose a multi-agent discussion framework to simulate a group of human annotators, where LLMs are tasked to engage in discussions by considering others' annotations and justifications before finalizing their labels. Additionally, we incorporate reasoning models (e.g., o3-mini) to enable a more comprehensive comparison. Our empirical results reveal that: (1) Individual LLMs equipped with inference-time techniques (e.g., chain-of-thought (CoT), self-consistency) show only marginal or even negative performance gains, contrary to prior literature suggesting their broad effectiveness. (2) Overall, reasoning models do not demonstrate statistically significant improvements over non-reasoning models in most settings. This suggests that extended long CoT provides relatively limited benefits for data annotation in specialized domains. (3) Certain model behaviors emerge in the multi-agent discussion environment. For instance, Claude 3.7 Sonnet with thinking rarely changes its initial annotations, even when other agents provide correct annotations or valid reasoning.
- Abstract(参考訳): テキストデータアノテーション(英: Textual Data Annotation)とは、テキストに関連情報をラベル付けしたり、タグ付けしたりするプロセスであり、通常、コストがかかり、時間がかかり、労力がかかる。
大規模言語モデル(LLM)は、一般的なドメイン自然言語処理(NLP)タスクに対する人間のアノテータの直接的な代替手段としての可能性を示しているが、専門家の知識を必要とする領域におけるアノテーションタスクに対する効果は未定である。
本稿では,学術的および専門的なベンチマークにおいて,専門家レベルの熟練度と認識される最上位のLCMが,人間の専門家アノテータの直接的な代替手段として機能するかどうかを検討する。
この目的のために、金融、バイオメディシン、法という3つの専門分野にまたがる個別のLCMとマルチエージェントのアプローチを評価した。
具体的には、人間のアノテーションのグループをシミュレートするマルチエージェント・ディスカッション・フレームワークを提案する。
さらに、より包括的な比較を可能にするために、推論モデル(例:o3-mini)を組み込む。
実験の結果,(1)推論時間技術(例えば,チェーン・オブ・シンク(CoT),自己整合性,自己整合性)を備えた個人LSMは,その広範な効果を示唆する先行文献とは対照的に,限界あるいは負のパフォーマンス向上しか示さないことが明らかとなった。
2) 概して, 推論モデルでは, ほとんどの設定において非推論モデルよりも統計的に有意な改善が示されていない。
これは、長いCoTが特殊ドメインのデータアノテーションに比較的限られた利点をもたらすことを示唆している。
(3)マルチエージェントの議論環境において,ある種のモデル行動が出現する。
例えば、思考を持つClaude 3.7 Sonnetは、正しいアノテーションや妥当な推論を提供するエージェントであっても、初期アノテーションを変更することは滅多にない。
関連論文リスト
- IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Large Language Models as Span Annotators [5.488183187190419]
大規模言語モデル(LLM)は柔軟性とコスト効率のよいアノテーションバックボーンとして機能することを示す。
出力アノテーションあたりのコストのごく一部で,LLMが人間のアノテーションに匹敵するアノテータ間合意(IAA)を達成することを示す。
論文 参考訳(メタデータ) (2025-04-11T17:04:51Z) - A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - Are Expert-Level Language Models Expert-Level Annotators? [17.06186816803593]
本研究では,データアノテータとしてのLSMが専門知識を必要とする領域でどの程度機能するかを検討する。
我々の知る限り、我々はLSMを専門家レベルのデータアノテータとして初めて体系的に評価した。
論文 参考訳(メタデータ) (2024-10-04T09:17:09Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - Can Large Language Models Identify Authorship? [16.35265384114857]
大規模言語モデル(LLM)は、推論と問題解決の特別な能力を示している。
1) LLM はゼロショット・エンド・ツー・エンドのオーサシップ検証を効果的に行うことができるか?
2) LLM は,複数の候補作家(例えば,10,20)の著者を正確に帰属させることができるか?
論文 参考訳(メタデータ) (2024-03-13T03:22:02Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。