論文の概要: Large Language Models as Span Annotators
- arxiv url: http://arxiv.org/abs/2504.08697v1
- Date: Fri, 11 Apr 2025 17:04:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-21 16:10:51.46098
- Title: Large Language Models as Span Annotators
- Title(参考訳): スパンアノテーションとしての大規模言語モデル
- Authors: Zdeněk Kasner, Vilém Zouhar, Patrícia Schmidtová, Ivan Kartáč, Kristýna Onderková, Ondřej Plátek, Dimitra Gkatzia, Saad Mahamood, Ondřej Dušek, Simone Balloccu,
- Abstract要約: spanアノテーションは改善をガイドし、洞察を提供する。
最近まで、スパンアノテーションは人間のアノテーションや微調整エンコーダモデルに限られていた。
大型言語モデル(LLM)は実装が簡単で、人間のアノテータよりもコスト効率が高いことを示す。
- 参考スコア(独自算出の注目度): 5.488183187190419
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: For high-quality texts, single-score metrics seldom provide actionable feedback. In contrast, span annotation - pointing out issues in the text by annotating their spans - can guide improvements and provide insights. Until recently, span annotation was limited to human annotators or fine-tuned encoder models. In this study, we automate span annotation with large language models (LLMs). We compare expert or skilled crowdworker annotators with open and proprietary LLMs on three tasks: data-to-text generation evaluation, machine translation evaluation, and propaganda detection in human-written texts. In our experiments, we show that LLMs as span annotators are straightforward to implement and notably more cost-efficient than human annotators. The LLMs achieve moderate agreement with skilled human annotators, in some scenarios comparable to the average agreement among the annotators themselves. Qualitative analysis shows that reasoning models outperform their instruction-tuned counterparts and provide more valid explanations for annotations. We release the dataset of more than 40k model and human annotations for further research.
- Abstract(参考訳): 高品質のテキストでは、シングルスコアのメトリクスはほとんどアクション可能なフィードバックを提供しません。
対照的に、スパンアノテーションは、スパンに注釈を付けることでテキストの問題を指摘し、改善をガイドし、洞察を提供する。
最近まで、スパンアノテーションは人間のアノテーションや微調整エンコーダモデルに限られていた。
本研究では,大言語モデル(LLM)を用いたスパンアノテーションの自動化について述べる。
専門家や熟練したクラウドワーカー・アノテータとオープンでプロプライエタリなLCMの3つのタスク(データ・テキスト生成評価、機械翻訳評価、人文テキストにおけるプロパガンダ検出)を比較した。
実験では,スパンアノテータとしてのLCMは実装が容易であり,人体アノテータよりもコスト効率が高いことを示した。
LLMは熟練した人間のアノテータとの適度な合意を達成しており、いくつかのシナリオではアノテータ自体の平均的な合意に匹敵する。
定性的な分析は、推論モデルが命令調整されたモデルよりも優れており、アノテーションのより有効な説明を提供することを示している。
さらなる研究のために40k以上のモデルと人間のアノテーションのデータセットをリリースする。
関連論文リスト
- Leveraging LLMs for Utility-Focused Annotation: Reducing Manual Effort for Retrieval and RAG [69.51637252264277]
本研究では,Large Language Models (LLMs) が,検索モデルのトレーニングにおいて,人間のアノテーションを効果的に置き換えられるかどうかを検討する。
提案実験により,実用性を重視したアノテーションを訓練したレトリバーは,ドメイン外設定でトレーニングしたアノテーションを有意に上回った。
20%の人間アノテーションでトレーニングされたデータだけで、ユーティリティ中心のアノテーションでトレーニングされたレトリバーが、完全に人間のアノテーションでトレーニングされたモデルのパフォーマンスにマッチする。
論文 参考訳(メタデータ) (2025-04-07T16:05:52Z) - A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - Mitigating Biases to Embrace Diversity: A Comprehensive Annotation Benchmark for Toxic Language [0.0]
本研究では、人文科学研究に基礎を置く規範的ベンチマークを導入し、攻撃的言語の一貫性のないラベル付けを確実にする。
我々は、人間と言語モデル(LLM)アノテーションのアノテーション間のより高いアノテータ合意を達成するために、2つの新しいアノテートデータセットをコントリビュートする。
論文 参考訳(メタデータ) (2024-10-17T08:10:24Z) - Show, Don't Tell: Aligning Language Models with Demonstrated Feedback [54.10302745921713]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - Active Learning for NLP with Large Language Models [4.1967870107078395]
アクティブラーニング(AL)テクニックは、可能な限り少数のサンプルをラベル付けして、合理的あるいは同様の結果に到達することができる。
本研究では,3つのデータセットにサンプルをラベル付けするためにLLM(Large Language Models)を使用することの正確さとコストについて検討する。
論文 参考訳(メタデータ) (2024-01-14T21:00:52Z) - Large Language Models for Propaganda Span Annotation [10.358271919023903]
本研究は, GPT-4のような大規模言語モデルが, 効果的にプロパガンダ的スパンを抽出できるかどうかを考察する。
実験は、大規模な社内アノテートデータセット上で実施される。
論文 参考訳(メタデータ) (2023-11-16T11:37:54Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z) - Active Learning for Abstractive Text Summarization [50.79416783266641]
本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。
ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
論文 参考訳(メタデータ) (2023-01-09T10:33:14Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。