論文の概要: Large Language Models as Span Annotators
- arxiv url: http://arxiv.org/abs/2504.08697v2
- Date: Tue, 24 Jun 2025 13:11:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 15:36:08.508489
- Title: Large Language Models as Span Annotators
- Title(参考訳): スパンアノテーションとしての大規模言語モデル
- Authors: Zdeněk Kasner, Vilém Zouhar, Patrícia Schmidtová, Ivan Kartáč, Kristýna Onderková, Ondřej Plátek, Dimitra Gkatzia, Saad Mahamood, Ondřej Dušek, Simone Balloccu,
- Abstract要約: 大規模言語モデル(LLM)は柔軟性とコスト効率のよいアノテーションバックボーンとして機能することを示す。
出力アノテーションあたりのコストのごく一部で,LLMが人間のアノテーションに匹敵するアノテータ間合意(IAA)を達成することを示す。
- 参考スコア(独自算出の注目度): 5.488183187190419
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Span annotation is the task of localizing and classifying text spans according to custom guidelines. Annotated spans can be used to analyze and evaluate high-quality texts for which single-score metrics fail to provide actionable feedback. Until recently, span annotation was limited to human annotators or fine-tuned models. In this study, we show that large language models (LLMs) can serve as flexible and cost-effective span annotation backbones. To demonstrate their utility, we compare LLMs to skilled human annotators on three diverse span annotation tasks: evaluating data-to-text generation, identifying translation errors, and detecting propaganda techniques. We demonstrate that LLMs achieve inter-annotator agreement (IAA) comparable to human annotators at a fraction of a cost per output annotation. We also manually analyze model outputs, finding that LLMs make errors at a similar rate to human annotators. We release the dataset of more than 40k model and human annotations for further research.
- Abstract(参考訳): Spanアノテーションは、カスタムガイドラインに従ってテキストスパンをローカライズし、分類するタスクである。
注釈付きスパンは、シングルスコアのメトリクスが実用的なフィードバックを提供しない高品質なテキストの分析と評価に使用することができる。
最近まで、スパンアノテーションは人間のアノテーションや微調整されたモデルに限られていた。
本研究では,大きな言語モデル (LLM) が,柔軟性とコスト効率のよいアノテーションのバックボーンとして機能することを示す。
それらの有用性を示すために,3つの多種多様なアノテーションタスク – データからテキストへの生成の評価,翻訳誤りの同定,プロパガンダ技術の検出 – において,LLMと熟練した人アノテーションとの比較を行った。
出力アノテーションあたりのコストのごく一部で,LLMが人間のアノテーションに匹敵するアノテータ間合意(IAA)を達成することを示す。
また、モデル出力を手動で解析し、LLMが人間のアノテータと同じような速度でエラーを発生させることを示した。
さらなる研究のために40k以上のモデルと人間のアノテーションのデータセットをリリースする。
関連論文リスト
- Mitigating Biases to Embrace Diversity: A Comprehensive Annotation Benchmark for Toxic Language [0.0]
本研究では、人文科学研究に基礎を置く規範的ベンチマークを導入し、攻撃的言語の一貫性のないラベル付けを確実にする。
我々は、人間と言語モデル(LLM)アノテーションのアノテーション間のより高いアノテータ合意を達成するために、2つの新しいアノテートデータセットをコントリビュートする。
論文 参考訳(メタデータ) (2024-10-17T08:10:24Z) - Show, Don't Tell: Aligning Language Models with Demonstrated Feedback [54.10302745921713]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - Large Language Models for Propaganda Span Annotation [10.358271919023903]
本研究は, GPT-4のような大規模言語モデルが, 効果的にプロパガンダ的スパンを抽出できるかどうかを考察する。
実験は、大規模な社内アノテートデータセット上で実施される。
論文 参考訳(メタデータ) (2023-11-16T11:37:54Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。