論文の概要: Validating LLM-as-a-Judge Systems in the Absence of Gold Labels
- arxiv url: http://arxiv.org/abs/2503.05965v1
- Date: Fri, 07 Mar 2025 22:09:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:52:21.514303
- Title: Validating LLM-as-a-Judge Systems in the Absence of Gold Labels
- Title(参考訳): 金ラベル存在下でのLCM-as-a-Judgeシステムの検証
- Authors: Luke Guerdan, Solon Barocas, Kenneth Holstein, Hanna Wallach, Zhiwei Steven Wu, Alexandra Chouldechova,
- Abstract要約: 本稿では,評価の異なる評価手法とアグリゲーション方式で,判定システム性能の異なる尺度間の接続を描画する理論的解析を行う。
既存の検証手法では,選択したシステムよりも最大34%の精度で,最適に判断可能なシステムを選択することが可能であることを実証的に実証した。
- 参考スコア(独自算出の注目度): 70.73669293078916
- License:
- Abstract: The LLM-as-a-judge paradigm, in which a judge LLM system replaces human raters in rating the outputs of other generative AI (GenAI) systems, has come to play a critical role in scaling and standardizing GenAI evaluations. To validate judge systems, evaluators collect multiple human ratings for each item in a validation corpus, and then aggregate the ratings into a single, per-item gold label rating. High agreement rates between these gold labels and judge system ratings are then taken as a sign of good judge system performance. In many cases, however, items or rating criteria may be ambiguous, or there may be principled disagreement among human raters. In such settings, gold labels may not exist for many of the items. In this paper, we introduce a framework for LLM-as-a-judge validation in the absence of gold labels. We present a theoretical analysis drawing connections between different measures of judge system performance under different rating elicitation and aggregation schemes. We also demonstrate empirically that existing validation approaches can select judge systems that are highly suboptimal, performing as much as 34% worse than the systems selected by alternative approaches that we describe. Based on our findings, we provide concrete recommendations for developing more reliable approaches to LLM-as-a-judge validation.
- Abstract(参考訳): LLM-as-a-judge(英語版)パラダイムは、ジェネレーションAI(GenAI)システムのアウトプットの評価において、判断型LLMシステムが人間のレーダに取って代わるものであり、GenAI評価のスケーリングと標準化において重要な役割を担っている。
審査システムを検証するために、評価者は、検証コーパスで各項目の複数の人格を収集し、その後、その評価を1イテムのゴールドラベル評価に集約する。
これらのゴールドラベルと審査システム評価の間の高い合意率は、優れた審査システム性能の兆候として捉えられる。
しかし、多くの場合、項目や評価基準が曖昧である場合や、人間のレイターの間では原則的な意見の相違がある場合が多い。
このような設定では、多くのアイテムに金のラベルは存在しないかもしれない。
本稿では,ゴールドラベルが存在しない場合のLCM-as-a-judgeバリデーションのためのフレームワークを提案する。
本稿では,評価の異なる評価手法とアグリゲーション方式で,判定システム性能の異なる尺度間の接続を描画する理論的解析を行う。
また、既存の検証手法は、非常に最適でない判断システムを選択することができ、記述した代替手法によって選択されたシステムよりも最大で34%悪い性能を発揮することを実証的に実証した。
本研究は, LLM-as-a-judge バリデーションに対する信頼性の高いアプローチを開発するための具体的な勧告である。
関連論文リスト
- Re-evaluating Automatic LLM System Ranking for Alignment with Human Preference [63.03859517284341]
自動評価フレームワークは、人間の嗜好との整合性に基づいてLLMをランク付けすることを目的としている。
自動LLMベンチラは、入力セット、評価モデル、評価タイプ、集約方法の4つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-12-31T17:46:51Z) - JudgeBlender: Ensembling Judgments for Automatic Relevance Assessment [28.4353755578306]
大規模言語モデル(LLM)は、検索タスクの関連ラベルを生成することを約束している。
我々は,より小型のオープンソースモデルを用いて妥当性判断を行うフレームワークであるJiceBlenderを紹介した。
論文 参考訳(メタデータ) (2024-12-17T19:04:15Z) - JuStRank: Benchmarking LLM Judges for System Ranking [7.507819077549208]
我々はLLM審査員をシステムランクラーとして大規模に調査した。
システムスコアは、複数のシステム出力に対して判定スコアを集約することで生成される。
我々の分析は、判断力や偏見を含む判断行動のきめ細かい特徴を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:51:13Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - Evaluating the Evaluator: Measuring LLMs' Adherence to Task Evaluation Instructions [18.93335792080899]
LLMs-as-a-judgeがAI判断と人間の判断の整合性に与える影響について検討する。
我々は、LLMによる最先端評価で一般的に使用される品質基準の分類を集約し、それを審査員として厳密なモデルベンチマークとして提供する。
論文 参考訳(メタデータ) (2024-08-16T14:49:35Z) - Quality-Based Conditional Processing in Multi-Biometrics: Application to
Sensor Interoperability [63.05238390013457]
2007年のバイオセキュリティ・マルチモーダル・アセスメント・キャンペーンにおいて,ATVS-UAM融合手法を品質ベースで評価し,評価を行った。
我々のアプローチは線形ロジスティック回帰に基づいており、融合したスコアはログライクな比率になる傾向にある。
その結果,提案手法はルールベースの核融合方式よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-11-24T12:11:22Z) - Vote'n'Rank: Revision of Benchmarking with Social Choice Theory [7.224599819499157]
本稿では,社会的選択論の原理に基づき,マルチタスクベンチマークにおけるシステムランキングの枠組みであるVote'n'Rankを提案する。
いくつかのMLサブフィールドにおいて,ベンチマークに関する新たな洞察を引き出すために,我々の手法を効率的に活用できることを実証する。
論文 参考訳(メタデータ) (2022-10-11T20:19:11Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z) - Fairness Score and Process Standardization: Framework for Fairness
Certification in Artificial Intelligence Systems [0.4297070083645048]
本稿では,データ駆動型AIシステムの公平性を測定するための新しいフェアネススコアを提案する。
また、公正性の概念を運用し、そのようなシステムの商用展開を容易にするためのフレームワークも提供する。
論文 参考訳(メタデータ) (2022-01-10T15:45:12Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。