論文の概要: The Alternative Annotator Test for LLM-as-a-Judge: How to Statistically Justify Replacing Human Annotators with LLMs
- arxiv url: http://arxiv.org/abs/2501.10970v2
- Date: Wed, 05 Feb 2025 15:24:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:25:27.818939
- Title: The Alternative Annotator Test for LLM-as-a-Judge: How to Statistically Justify Replacing Human Annotators with LLMs
- Title(参考訳): LLM-as-a-Judgeの代替アノテータテスト:LLMを用いたヒトアノテータの統計的正当化法
- Authors: Nitay Calderon, Roi Reichart, Rotem Dror,
- Abstract要約: LLM-as-a-judge"パラダイムでは、人間が伝統的に行ってきたタスクにおいて、アノテータや評価役としてLarge Language Modelsを採用している。
研究結果や洞察を形成する上での役割にもかかわらず、LLMがヒトのアノテーターを置き換えることができるかどうかを判断するための標準的あるいは厳格な手順は存在しない。
LLMアノテーションの使用を正当化するためには、アノテーション付き例の控えめなサブセットだけを必要とする新しい統計手順である代替アノテーションテスト(alt-test)を提案する。
- 参考スコア(独自算出の注目度): 21.97227334180969
- License:
- Abstract: The "LLM-as-a-judge" paradigm employs Large Language Models (LLMs) as annotators and evaluators in tasks traditionally performed by humans. LLM annotations are widely used, not only in NLP research but also in fields like medicine, psychology, and social science. Despite their role in shaping study results and insights, there is no standard or rigorous procedure to determine whether LLMs can replace human annotators. In this paper, we propose a novel statistical procedure -- the Alternative Annotator Test (alt-test) -- that requires only a modest subset of annotated examples to justify using LLM annotations. Additionally, we introduce a versatile and interpretable measure for comparing LLM judges. To demonstrate our procedure, we curated a diverse collection of ten datasets, consisting of language and vision-language tasks, and conducted experiments with six LLMs and four prompting techniques. Our results show that LLMs can sometimes replace humans with closed-source LLMs (such as GPT-4o), outperforming open-source LLMs, and that prompting techniques yield judges of varying quality. We hope this study encourages more rigorous and reliable practices.
- Abstract(参考訳): LLM-as-a-judge"パラダイムでは、人間によって伝統的に実行されるタスクのアノテータや評価手段として、LLM(Large Language Models)を使用している。
LLMアノテーションは、NLP研究だけでなく、医学、心理学、社会科学などの分野でも広く使われている。
研究結果や洞察を形成する上での役割にもかかわらず、LLMがヒトのアノテーターを置き換えることができるかどうかを判断するための標準的あるいは厳格な手順は存在しない。
本稿では,LLMアノテーションを用いた正当化のために,注釈付き例の控えめなサブセットのみを必要とする新しい統計手法である代替アノテーションテスト(alt-test)を提案する。
さらに,LLM審査員の比較のための多目的かつ解釈可能な尺度を提案する。
提案手法を実証するために,言語および視覚言語タスクからなる10のデータセットの多種多様なコレクションをキュレートし,6つのLDMと4つのプロンプト技術を用いて実験を行った。
以上の結果から,LPMは人体をGPT-4oのようなクローズドソースのLCMに置き換えることができ,オープンソースLLMよりも優れた性能を示し,様々な品質の審査を行うことができることがわかった。
この研究がより厳格で信頼性の高いプラクティスを促進することを願っています。
関連論文リスト
- Can LLMs Replace Manual Annotation of Software Engineering Artifacts? [24.563167762241346]
大規模言語モデル(LLM)は、最近、いくつかの領域で人間レベルのパフォーマンスを実証し始めた。
本稿では、コードやコード関連アーティファクトの評価において、より安価なLCMクエリーでコストのかかる被験者を代用する可能性について検討する。
以上の結果から,LLMを人体アノテーションに置き換えることで,人体・人体・人体間の合意に等しいあるいは近い契約が成立する可能性が示唆された。
論文 参考訳(メタデータ) (2024-08-10T12:30:01Z) - SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading [100.02175403852253]
LLM(Large Language Models)の一般的な用途は、科学的トピックに関するタスクを実行することである。
そこで本稿では,大学生のこのような課題に対する評価方法に着想を得たSciExを提案する。
我々は,新しいベンチマークを用いて,最先端のLLMの性能評価を行った。
論文 参考訳(メタデータ) (2024-06-14T21:52:21Z) - Language Model Council: Democratically Benchmarking Foundation Models on Highly Subjective Tasks [3.58262772907022]
言語モデル協議会(LMC: Language Model Council)では、LLMのグループが協力してテストを作成し、それに反応し、お互いの反応を評価してランキングを作成する。
感情的インテリジェンスに関する詳細なケーススタディでは、対人対立に対するオープン・エンド・レスポンスにおいて、20の最近のLCMを相互にランク付けするために配置する。
以上の結果から, LMCは, より分離性が高く, より堅牢なランキングを作成でき, ユーザスタディにより, 個々のLCM審査員よりも人的評価に整合性があることが示唆された。
論文 参考訳(メタデータ) (2024-06-12T19:05:43Z) - Detecting Hallucinations in Large Language Model Generation: A Token Probability Approach [0.0]
LLM(Large Language Models)は、幻覚と呼ばれる不正確な出力を生成する。
本稿では,トークンから得られる4つの数値的特徴と,他の評価者から得られる語彙的確率を用いた教師付き学習手法を提案する。
この方法は有望な結果をもたらし、3つの異なるベンチマークで複数のタスクで最先端の結果を上回る。
論文 参考訳(メタデータ) (2024-05-30T03:00:47Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - Verbosity Bias in Preference Labeling by Large Language Models [10.242500241407466]
大規模言語モデル(LLM)の評価に伴うバイアスについて検討する。
冗長性バイアス( verbosity bias) -- LLM では,たとえ同じような品質を持つとしても,より冗長な回答を好む場合があります。
論文 参考訳(メタデータ) (2023-10-16T05:19:02Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。