Fugu-MT 論文翻訳(概要): Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges

論文の概要: Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges

arxiv url: http://arxiv.org/abs/2406.12624v3
Date: Fri, 11 Oct 2024 05:29:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.821995
Title: Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges
Title（参考訳）: 審査員の判断:LCMにおけるアライメントと脆弱性の評価
Authors: Aman Singh Thakur, Kartik Choudhary, Venkat Srinik Ramayapally, Sankaran Vaidyanathan, Dieuwke Hupkes,
Abstract要約: LLM-as-a-judgeパラダイムは,大規模言語モデルを評価するアプローチとして急速に普及している。本稿では,人間間の合意が高いクリーンなシナリオに焦点を当てる。我々は、複雑性や長さを早めるための感度や、寛大さへの傾向など、審査モデルの脆弱性を識別する。
参考スコア（独自算出の注目度）: 6.609843448260634
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Offering a promising solution to the scalability challenges associated with human evaluation, the LLM-as-a-judge paradigm is rapidly gaining traction as an approach to evaluating large language models (LLMs). However, there are still many open questions about the strengths and weaknesses of this paradigm, and what potential biases it may hold. In this paper, we present a comprehensive study of the performance of various LLMs acting as judges, focusing on a clean scenario in which inter-human agreement is high. Investigating thirteen judge models of different model sizes and families, judging answers of nine different 'examtaker models' - both base and instruction-tuned - we find that only the best (and largest) models achieve reasonable alignment with humans. However, they are still quite far behind inter-human agreement and their assigned scores may still differ with up to 5 points from human-assigned scores. In terms of their ranking of the nine exam-taker models, instead, also smaller models and even the lexical metric contains may provide a reasonable signal. Through error analysis and other studies, we identify vulnerabilities in judge models, such as their sensitivity to prompt complexity and length, and a tendency toward leniency. The fact that even the best judges differ from humans in this comparatively simple setup suggest that caution may be wise when using judges in more complex setups. Lastly, our research rediscovers the importance of using alignment metrics beyond simple percent alignment, showing that judges with high percent agreement can still assign vastly different scores.
Abstract（参考訳）: LLM-as-a-judgeパラダイムは、人間の評価に関連するスケーラビリティの課題に対して、大きな言語モデル(LLM)を評価するアプローチとして、急速に注目を集めています。しかし、このパラダイムの強みと弱み、そしてそれが保持する潜在的なバイアスについて、まだ多くのオープンな疑問がある。本稿では,人間間の合意が高いクリーンなシナリオに着目し,審査員として機能する様々なLLMの性能に関する総合的研究を行う。モデルのサイズや家族の異なる13の判断モデルを調査し、9つの異なる'examtaker model'(ベースモデルとインストラクションチューニングモデルの両方)の答えを判断すると、最高の(そして最大の)モデルだけが人間と合理的に一致していることがわかった。しかし、彼らはまだ人間間合意にかなり遅れており、割り当てられたスコアは人間指定スコアから最大5ポイントの違いがあるかもしれない。 9つの試験テイカーモデルのランキングでは、代わりに、より小さなモデルや語彙のメートル法でさえ合理的なシグナルを与える可能性がある。エラー解析やその他の研究を通じて、複雑性や長さの促進に敏感な判断モデルや、寛大さへの傾向など、判断モデルの脆弱性を識別する。この比較的単純な設定では、優れた判断者でさえ人間と異なるという事実は、より複雑な設定で判断者を使用する場合、注意が必要であることを示唆している。最後に、我々の研究は、単純なパーセンテージのアライメント以上のアライメントメトリクスを使うことの重要性を再検討し、高いパーセンテージを持つ審査員が依然として全く異なるスコアを割り当てることができることを示した。

関連論文リスト

Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation [89.52571224447111]
大規模言語モデル(LLM)の判断は、要約のようなタスクのために、伝統的なアルゴリズムベースのメトリクスと併用されることが多い。要約領域における人書き応答と重なる関数としてLLM判定バイアス分析を提案する。
論文参考訳（メタデータ） (2026-02-07T19:39:28Z)
A Judge-Aware Ranking Framework for Evaluating Large Language Models without Ground Truth [4.9467757325435775]
大規模言語モデル(LLM)をオープンなタスクで評価することは、LLM-as-a-judgeパラダイムを通じてますます行われています。すべての裁判官を平等に扱うことは、偏見のあるリーダーボードを生み出し、不確実性の推定を誤解させる可能性がある。そこで本研究では,Bradley-Terry-Luceモデルを拡張し,判定固有の識別パラメータを導入することにより,判定対応のランキングフレームワークを提案する。
論文参考訳（メタデータ） (2026-01-29T15:01:28Z)
JudgeBoard: Benchmarking and Enhancing Small Language Models for Reasoning Evaluation [13.831735556002426]
小型言語モデル(SLM)は様々な推論タスクを約束している。解答の正しさを判断する能力は、大言語モデル(LLM)と比較しても明らかでない。
論文参考訳（メタデータ） (2025-11-20T01:14:39Z)
Judge's Verdict: A Comprehensive Analysis of LLM Judge Capability Through Human Agreement [1.5191981795942073]
本研究では,Large Language Models (LLMs) を応答精度評価タスクの判定対象として,新たな2段階評価手法を提案する。 RAG(Retrieval-Augmented Generation)やAgentic Pipelines(Agentic Pipelines)からの応答を、地上の真実の答えに対して評価すると、54個のLLMが人間の判断をいかにうまく再現できるかを評価する。
論文参考訳（メタデータ） (2025-10-10T17:27:33Z)
CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards [72.44810390478229]
CompassJudger-2は、タスク駆動のマルチドメインデータキュレーション戦略によって制限を克服する新しいジェネラリストジャッジモデルである。 CompassJudger-2は、複数の判定と報奨ベンチマークで優れた結果を得る。
論文参考訳（メタデータ） (2025-07-12T01:34:24Z)
Quantitative LLM Judges [48.676042957523045]
本研究では,既存のLLM審査員の評価スコアを,与えられた領域における人間の評価スコアと整合させる定量的LLM判定者を提案する。モデルは、裁判官のテキスト評価とスコアを用いて、原判事のスコアを改善するために訓練される。実験により, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を効果的に向上できることが示された。
論文参考訳（メタデータ） (2025-06-03T14:44:23Z)
J4R: Learning to Judge with Equivalent Initial State Group Relative Policy Optimization [69.23273504123941]
私たちは、より複雑な評価設定で生じる位置バイアスに対して堅牢であるように、裁判官を訓練します。我々はReasoningJudgeBenchというベンチマークを紹介します。 EIS-GRPOで訓練を受けた7B判事であるReasoning判事(J4R)は、GPT-4oを6.7%、そして9%で上回ります。
論文参考訳（メタデータ） (2025-05-19T16:50:35Z)
Judge as A Judge: Improving the Evaluation of Retrieval-Augmented Generation through the Judge-Consistency of Large Language Models [68.92020689188887]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) に対する幻覚を緩和する効果を証明している。既存の自動評価メトリクスは、トレーニングと評価の間にRAGモデルによって生成されたアウトプットを正確に評価することはできない。本稿では,RAGモデルのより正確な評価を実現するため,LCMの強化を目的とした判断一貫性(ConsJudge)手法を提案する。
論文参考訳（メタデータ） (2025-02-26T04:50:43Z)
Tuning LLM Judge Design Decisions for 1/1000 of the Cost [42.06346155380305]
大きな言語モデル(LLM)は、しばしば人為的なアノテーションを必要とする。この問題に対処するため、2つのLLMの出力を比較するLLMベースの審査員が提案されている。いくつかのアプローチが提案されているが、異なる論文の間には多くの相反する要因が存在する。
論文参考訳（メタデータ） (2025-01-24T17:01:14Z)
JudgeBlender: Ensembling Judgments for Automatic Relevance Assessment [28.4353755578306]
大規模言語モデル(LLM)は、検索タスクの関連ラベルを生成することを約束している。我々は,より小型のオープンソースモデルを用いて妥当性判断を行うフレームワークであるJiceBlenderを紹介した。
論文参考訳（メタデータ） (2024-12-17T19:04:15Z)
The Superalignment of Superhuman Intelligence with Large Language Models [63.96120398355404]
我々は,この疑問に答えるために,学習の観点からスーパーアライメントの概念について議論する。スーパーアライメントにおけるいくつかの重要な研究課題、すなわち、弱いから強い一般化、スケーラブルな監視、評価に焦点を当てる。本稿では,学習者モデルの弱点を露呈しようとする敵対的クエリを生成する攻撃者,最小限の人間専門家とともに,批判モデルによって生成されたスケーラブルなフィードバックから学習することで自己を洗練させる学習者,与えられた質問応答対に対する批判や説明を生成する批判者,そして批判によって学習者を改善することを目的とした,3つのモジュールからなるスーパーアライメントの概念的枠組みを提案する。
論文参考訳（メタデータ） (2024-12-15T10:34:06Z)
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。 CompassJudger-1は、優れた汎用性を示す汎用LLMである。 textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文参考訳（メタデータ） (2024-10-21T17:56:51Z)
Limits to scalable evaluation at the frontier: LLM as Judge won't beat twice the data [14.95829896035971]
新たなデバイアスツールのファミリーは、いくつかの高品質なラベルを使用して多数のモデル判断をデバイアスすることで、問題を解決することを約束している。本研究の主目的は,審査員が評価モデルに比較して精度が低い場合,デバイアス法が要求される地上の真実ラベルの量を半分以上減らすことができないことである。
論文参考訳（メタデータ） (2024-10-17T08:49:42Z)
JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文参考訳（メタデータ） (2024-10-16T17:58:19Z)
Weak-eval-Strong: Evaluating and Eliciting Lateral Thinking of LLMs with Situation Puzzles [20.18736445118689]
SPLATは,Large Language Models (LLMs) の側方的思考を評価・引き起こすためのコンディションパズルを利用したベンチマークである。このベンチマークは、3つの難易度で975グレードのシチュエーションパズルを含むもので、従来のモデルに基づく評価ではなく、新しいマルチターンプレーヤジャッジフレームワークを採用している。実験により、WizardLM-2のような頑健な評価モデルが、中間質問回答と最終シナリオの精度の両方において、人間の判断と密接に一致していることが示されている。
論文参考訳（メタデータ） (2024-10-09T10:09:11Z)
From Calculation to Adjudication: Examining LLM judges on Mathematical Reasoning Tasks [11.01213914485374]
数学的推論タスクにおいて,大規模言語モデル (LLM) について検討する。本分析により,判定性能と候補モデルタスク性能との間に強い相関関係が明らかになった。本研究では,各モデルのタスク性能などの統計データを用いて,判定性能の予測を行うことが可能であることを示す。
論文参考訳（メタデータ） (2024-09-06T10:09:41Z)
Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models [56.02275285521847]
LLm評価器のパネル(PoLL)を用いた評価モデルを提案する。より多数の小さなモデルで構成されたPoLLは,1つの大判定器より優れ,不整合モデルファミリーの構成によるモデル内バイアスが小さく,しかも7倍以上のコストがかかる。
論文参考訳（メタデータ） (2024-04-29T15:33:23Z)
JudgeLM: Fine-tuned Large Language Models are Scalable Judges [54.007823006976516]
大規模言語モデル (LLM) を拡張性判断器 (JudgeLM) として微調整し, LLM を効率よく, かつ効率的に評価する手法を提案する。まず, タスクシード, LLM 生成回答, GPT-4 生成判断を含む包括的, 大規模, 高品質なデータセットを提案する。次に、微調整LDMにおける重要なバイアスを判断として分析し、位置バイアス、知識バイアス、フォーマットバイアスとみなす。
論文参考訳（メタデータ） (2023-10-26T17:48:58Z)
Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T07:41:03Z)
Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文参考訳（メタデータ） (2023-04-13T13:08:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。