論文の概要: Validating LLM-as-a-Judge Systems in the Absence of Gold Labels
- arxiv url: http://arxiv.org/abs/2503.05965v1
- Date: Fri, 07 Mar 2025 22:09:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 20:09:44.087826
- Title: Validating LLM-as-a-Judge Systems in the Absence of Gold Labels
- Title(参考訳): 金ラベル存在下でのLCM-as-a-Judgeシステムの検証
- Authors: Luke Guerdan, Solon Barocas, Kenneth Holstein, Hanna Wallach, Zhiwei Steven Wu, Alexandra Chouldechova,
- Abstract要約: 本稿では,評価の異なる評価手法とアグリゲーション方式で,判定システム性能の異なる尺度間の接続を描画する理論的解析を行う。
既存の検証手法では,選択したシステムよりも最大34%の精度で,最適に判断可能なシステムを選択することが可能であることを実証的に実証した。
- 参考スコア(独自算出の注目度): 70.73669293078916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The LLM-as-a-judge paradigm, in which a judge LLM system replaces human raters in rating the outputs of other generative AI (GenAI) systems, has come to play a critical role in scaling and standardizing GenAI evaluations. To validate judge systems, evaluators collect multiple human ratings for each item in a validation corpus, and then aggregate the ratings into a single, per-item gold label rating. High agreement rates between these gold labels and judge system ratings are then taken as a sign of good judge system performance. In many cases, however, items or rating criteria may be ambiguous, or there may be principled disagreement among human raters. In such settings, gold labels may not exist for many of the items. In this paper, we introduce a framework for LLM-as-a-judge validation in the absence of gold labels. We present a theoretical analysis drawing connections between different measures of judge system performance under different rating elicitation and aggregation schemes. We also demonstrate empirically that existing validation approaches can select judge systems that are highly suboptimal, performing as much as 34% worse than the systems selected by alternative approaches that we describe. Based on our findings, we provide concrete recommendations for developing more reliable approaches to LLM-as-a-judge validation.
- Abstract(参考訳): LLM-as-a-judge(英語版)パラダイムは、ジェネレーションAI(GenAI)システムのアウトプットの評価において、判断型LLMシステムが人間のレーダに取って代わるものであり、GenAI評価のスケーリングと標準化において重要な役割を担っている。
審査システムを検証するために、評価者は、検証コーパスで各項目の複数の人格を収集し、その後、その評価を1イテムのゴールドラベル評価に集約する。
これらのゴールドラベルと審査システム評価の間の高い合意率は、優れた審査システム性能の兆候として捉えられる。
しかし、多くの場合、項目や評価基準が曖昧である場合や、人間のレイターの間では原則的な意見の相違がある場合が多い。
このような設定では、多くのアイテムに金のラベルは存在しないかもしれない。
本稿では,ゴールドラベルが存在しない場合のLCM-as-a-judgeバリデーションのためのフレームワークを提案する。
本稿では,評価の異なる評価手法とアグリゲーション方式で,判定システム性能の異なる尺度間の接続を描画する理論的解析を行う。
また、既存の検証手法は、非常に最適でない判断システムを選択することができ、記述した代替手法によって選択されたシステムよりも最大で34%悪い性能を発揮することを実証的に実証した。
本研究は, LLM-as-a-judge バリデーションに対する信頼性の高いアプローチを開発するための具体的な勧告である。
関連論文リスト
- Learning an Efficient Multi-Turn Dialogue Evaluator from Multiple Judges [22.7340872046127]
選好知識を1つのモデルに集約することで,複数のLLM審査員の集合的知恵を捉える,効率的なマルチターン対話評価器を提案する。
評価コストを大幅に削減しつつ,多様なマルチジャッジフィードバックの利点を保ちながら,高速かつ柔軟な対話品質評価を実現している。
論文 参考訳(メタデータ) (2025-08-01T09:26:01Z) - Quantitative LLM Judges [48.676042957523045]
本研究では,既存のLLM審査員の評価スコアを,与えられた領域における人間の評価スコアと整合させる定量的LLM判定者を提案する。
モデルは、裁判官のテキスト評価とスコアを用いて、原判事のスコアを改善するために訓練される。
実験により, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を効果的に向上できることが示された。
論文 参考訳(メタデータ) (2025-06-03T14:44:23Z) - MALIBU Benchmark: Multi-Agent LLM Implicit Bias Uncovered [2.8692611791027893]
我々は,マルチエージェントシステムが社会的バイアスやステレオタイプを暗黙的に補強する程度を評価するために開発された新しいベンチマークであるMALIBUを提案する。
本研究は, LLM生成出力の偏差を定量化し, 偏差緩和が真の中立性よりも限界化されたペルソナを優先することを明らかにする。
論文 参考訳(メタデータ) (2025-04-10T19:16:40Z) - Judge as A Judge: Improving the Evaluation of Retrieval-Augmented Generation through the Judge-Consistency of Large Language Models [68.92020689188887]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) に対する幻覚を緩和する効果を証明している。
既存の自動評価メトリクスは、トレーニングと評価の間にRAGモデルによって生成されたアウトプットを正確に評価することはできない。
本稿では,RAGモデルのより正確な評価を実現するため,LCMの強化を目的とした判断一貫性(ConsJudge)手法を提案する。
論文 参考訳(メタデータ) (2025-02-26T04:50:43Z) - Tuning LLM Judge Design Decisions for 1/1000 of the Cost [42.06346155380305]
大きな言語モデル(LLM)は、しばしば人為的なアノテーションを必要とする。
この問題に対処するため、2つのLLMの出力を比較するLLMベースの審査員が提案されている。
いくつかのアプローチが提案されているが、異なる論文の間には多くの相反する要因が存在する。
論文 参考訳(メタデータ) (2025-01-24T17:01:14Z) - JudgeBlender: Ensembling Judgments for Automatic Relevance Assessment [28.4353755578306]
大規模言語モデル(LLM)は、検索タスクの関連ラベルを生成することを約束している。
我々は,より小型のオープンソースモデルを用いて妥当性判断を行うフレームワークであるJiceBlenderを紹介した。
論文 参考訳(メタデータ) (2024-12-17T19:04:15Z) - JuStRank: Benchmarking LLM Judges for System Ranking [7.507819077549208]
我々はLLM審査員をシステムランクラーとして大規模に調査した。
システムスコアは、複数のシステム出力に対して判定スコアを集約することで生成される。
我々の分析は、判断力や偏見を含む判断行動のきめ細かい特徴を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:51:13Z) - Limitations of Automatic Relevance Assessments with Large Language Models for Fair and Reliable Retrieval Evaluation [2.9180406633632523]
大規模言語モデル(LLM)は,自動関連性評価ツールとして注目されている。
近年の研究では、LLMに基づく評価が、人為的判断と高いシステムランキングの相関をもたらすことが示されている。
我々は,LLMによる判断が,上位評価システム間の順位差をいかに保っているか,また,人間の判断として相互に重要な評価を保っているかを検討する。
論文 参考訳(メタデータ) (2024-11-20T11:19:35Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - Evaluating the Evaluator: Measuring LLMs' Adherence to Task Evaluation Instructions [18.93335792080899]
LLMs-as-a-judgeがAI判断と人間の判断の整合性に与える影響について検討する。
我々は、LLMによる最先端評価で一般的に使用される品質基準の分類を集約し、それを審査員として厳密なモデルベンチマークとして提供する。
論文 参考訳(メタデータ) (2024-08-16T14:49:35Z) - Quality-Based Conditional Processing in Multi-Biometrics: Application to
Sensor Interoperability [63.05238390013457]
2007年のバイオセキュリティ・マルチモーダル・アセスメント・キャンペーンにおいて,ATVS-UAM融合手法を品質ベースで評価し,評価を行った。
我々のアプローチは線形ロジスティック回帰に基づいており、融合したスコアはログライクな比率になる傾向にある。
その結果,提案手法はルールベースの核融合方式よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-11-24T12:11:22Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。