論文の概要: Neither Valid nor Reliable? Investigating the Use of LLMs as Judges
- arxiv url: http://arxiv.org/abs/2508.18076v2
- Date: Wed, 27 Aug 2025 21:24:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 11:47:01.191998
- Title: Neither Valid nor Reliable? Investigating the Use of LLMs as Judges
- Title(参考訳): 妥当性も信頼性も? LLM の裁判官としての活用を探る
- Authors: Khaoula Chehbouni, Mohammed Haddou, Jackie Chi Kit Cheung, Golnoosh Farnadi,
- Abstract要約: 審査員としての大規模言語モデル(LLJ)は、従来のメトリクスに代わる有望な代替手段として現れてきたが、その妥当性は未検討のままである。
本論では,LLJに対する現在の熱意は,信頼性と妥当性に関する厳密な調査を評価対象として上回っているため,時期尚早である可能性が示唆された。
- 参考スコア(独自算出の注目度): 23.16086453334644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating natural language generation (NLG) systems remains a core challenge of natural language processing (NLP), further complicated by the rise of large language models (LLMs) that aims to be general-purpose. Recently, large language models as judges (LLJs) have emerged as a promising alternative to traditional metrics, but their validity remains underexplored. This position paper argues that the current enthusiasm around LLJs may be premature, as their adoption has outpaced rigorous scrutiny of their reliability and validity as evaluators. Drawing on measurement theory from the social sciences, we identify and critically assess four core assumptions underlying the use of LLJs: their ability to act as proxies for human judgment, their capabilities as evaluators, their scalability, and their cost-effectiveness. We examine how each of these assumptions may be challenged by the inherent limitations of LLMs, LLJs, or current practices in NLG evaluation. To ground our analysis, we explore three applications of LLJs: text summarization, data annotation, and safety alignment. Finally, we highlight the need for more responsible evaluation practices in LLJs evaluation, to ensure that their growing role in the field supports, rather than undermines, progress in NLG.
- Abstract(参考訳): 自然言語生成(NLG)システムの評価は、自然言語処理(NLP)の中核的な課題であり、汎用性を目指す大規模言語モデル(LLM)の台頭によってさらに複雑化している。
近年,審査員としての大規模言語モデル (LLJ) が従来のメトリクスに代わる有望な代替手段として登場したが,その妥当性は未検討のままである。
このポジションペーパーは、LLJsに関する現在の熱意は、彼らの信頼性と妥当性に関する厳格な精査を評価者として上回っているため、時期尚早であると主張している。
社会科学の計測理論に基づいて,人的判断のプロキシとして機能する能力,評価者としての能力,スケーラビリティ,費用対効果の4つの中核的仮定を同定し,批判的に評価する。
それぞれの仮定が, LLM, LLJ, あるいは NLG 評価における現在の実践の固有の制限によって, どのように挑戦されるかを検討する。
そこで本研究では,テキスト要約,データアノテーション,安全性アライメントという,LLJの3つの応用について検討する。
最後に, LLJの評価においてより責任ある評価プラクティスの必要性を強調し, NLGの進歩を損なうのではなく, 現場での役割が向上することを確かめる。
関連論文リスト
- Multi-Agent LLM Judge: automatic personalized LLM judge design for evaluating natural language generation applications [0.0]
大規模言語モデル(LLM)は、さまざまなドメインにまたがって素晴らしいパフォーマンスを示しているが、ドメイン固有の知識の不足、バイアス、幻覚といった問題に直面している。
単語重複やテキスト埋め込みに依存する従来の評価手法は、動的でオープンなテキスト生成を評価するのに必要なニュアンスドセマンティック情報を取得するには不十分である。
本稿では,様々な自然言語生成アプリケーション向けにパーソナライズされたLLM判断器を自動設計する動的マルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2025-04-01T09:36:56Z) - A Judge-free LLM Open-ended Generation Benchmark Based on the Distributional Hypothesis [1.5802986215292303]
我々は,n-gram統計量と規則を用いた大規模言語モデル(LLM)を評価する新しいベンチマークを提案する。
質問50と参照回答セットを用いて,n-gramとルールに基づく3つの新しいメトリクスを導入する。
本ベンチマークはGPT-4oに基づく評価と相関するが,計算資源は著しく少ない。
論文 参考訳(メタデータ) (2025-02-13T13:30:54Z) - Themis: A Reference-free NLG Evaluation Language Model with Flexibility and Interpretability [39.12792986841385]
本稿では,人間とGPT-4のアノテーションを用いた大規模NLG評価コーパスNLG-Evalを構築した。
また,NLG 評価専用の LLM を提案する。この LLM は,設計した多視点整合性検証と評価指向の選好アライメント手法を用いて訓練されている。
Themis は様々な NLG タスクに対して優れた評価性能を示し、同時に未確認タスクを一般化し、GPT-4 など他の評価モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-26T14:04:29Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。