論文の概要: Mediocrity is the key for LLM as a Judge Anchor Selection
- arxiv url: http://arxiv.org/abs/2603.16848v1
- Date: Tue, 17 Mar 2026 17:54:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.464776
- Title: Mediocrity is the key for LLM as a Judge Anchor Selection
- Title(参考訳): LLMのアンカー・セレクションとしてのメディチュアリティ
- Authors: Shachar Don-Yehiya, Asaf Yehudai, Leshem Choshen, Omri Abend,
- Abstract要約: アンカー選択が結果の信頼性に与える影響は、まだ明らかにされていない。
貧弱なアンカーは、人間のランキングとの相関を劇的に減らすことができる。
信頼性と効率性を確保するために,情報アンカーを選択するためのガイドラインを提供する。
- 参考スコア(独自算出の注目度): 28.656244246729184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ``LLM-as-a-judge'' paradigm has become a standard method for evaluating open-ended generation. To address the quadratic scalability costs of pairwise comparisons, popular benchmarks like Arena-Hard and AlpacaEval compare all models against a single anchor. However, despite its widespread use, the impact of anchor selection on the reliability of the results remains largely unexplored. In this work, we systematically investigate the effect of anchor selection by evaluating 22 different anchors on the Arena-Hard-v2.0 dataset. We find that the choice of anchor is critical: a poor anchor can dramatically reduce correlation with human rankings. We identify that common anchor choices (best-performing and worst-performing models) make poor anchors. Because these extreme anchors are consistently better or worse than all other models, they are seldom indicative of the relative ranking of the models. We further quantify the effect size of anchor selection, showing it is comparable to the selection of a judge model. We conclude with actionable recommendations. First, we conduct a power analysis, and compute sufficient benchmark sizes for anchor-based evaluation, finding that standard benchmark sizes are insufficient for pairwise evaluation and fail to distinguish between competitive models reliably. Second, we provide guidelines for selecting informative anchors to ensure reliable and efficient evaluation practices.
- Abstract(参考訳): `LLM-as-a-judge''パラダイムは、オープン・エンド・ジェネレーションを評価する標準的な方法となっている。
ペア比較の二次スケーラビリティコストに対処するため、Arena-HardやAlpacaEvalといった一般的なベンチマークでは、すべてのモデルを単一のアンカーと比較している。
しかし、広く使われているにもかかわらず、アンカーの選択が結果の信頼性に与える影響は未解明のままである。
本研究では,アリーナ-ハード-v2.0データセットに対する22種類のアンカーの評価により,アンカー選択の効果を系統的に検討する。
アンカーの選択は重要であり、貧弱なアンカーは人間のランキングとの相関を劇的に減らすことができる。
一般的なアンカーの選択(最高のパフォーマンスと最悪のパフォーマンスのモデル)は、アンカーを貧弱にします。
これらの極端なアンカーは他のモデルよりも一貫して良いか悪いので、モデルの相対的なランキングを示すことはめったにない。
さらに、アンカー選択の効果の大きさを定量化し、判定モデルの選択に匹敵することを示す。
私たちは行動可能な勧告で締めくくります。
まず、パワー分析を行い、アンカーベース評価に十分なベンチマークサイズを計算し、標準ベンチマークサイズがペアワイズ評価に不十分であり、競争モデルを確実に区別できないことを発見した。
第2に,信頼性と効率性を確保するために,情報アンカーを選択するためのガイドラインを提供する。
関連論文リスト
- Dependence-Aware Label Aggregation for LLM-as-a-Judge via Ising Models [55.94503936470247]
大規模なAI評価は、審査員を含む、$K$アノテータからのバイナリ判断を集約することにますます依存している。
ほとんどの古典的なメソッドは、アノテータが条件的に独立であると仮定するが、真のラベルは$Yin0,1$であり、この仮定は LLM の審査員によってしばしば違反される。
我々はIsingグラフィカルモデルと潜在因子に基づく依存認識モデルの階層構造を通してラベルアグリゲーションを研究する。
論文 参考訳(メタデータ) (2026-01-29T21:26:50Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine Validity [21.192000569821943]
我々は、厳密な目標と検証可能な構成がなければ、ベンチマークのランキングは、ほぼノイズの多い高信頼度ランキングを生成することができると論じる。
本稿では,Arena-Hard Autoが使用するELOスタイルのアグリゲーションが崩壊し,真のランキングの不確かさをマスクすることを示す。
我々の結果は、妥当性を損なう設計上の失敗を強調し、より良いスコープで信頼性に配慮したベンチマークを構築するための実用的な原則を提供する。
論文 参考訳(メタデータ) (2025-09-24T16:26:47Z) - Are Bias Evaluation Methods Biased ? [3.9748528039819977]
大規模言語モデルの安全性を評価するためのベンチマークの作成は、信頼できるAIコミュニティにおける重要な活動のひとつだ。
このようなベンチマークがいかに頑健であるかを、異なるアプローチを用いて、偏見を表すモデルの集合をランク付けし、全体ランキングがどの程度類似しているかを比較する。
論文 参考訳(メタデータ) (2025-06-20T16:11:25Z) - Language Model Preference Evaluation with Multiple Weak Evaluators [89.90733463933431]
PGEDは,複数のモデルに基づく評価器を用いて嗜好グラフを構築し,非循環的非競合性評価結果に対してこれらのグラフをアンサンブルし,デノテーズする手法である。
1)評価のためのモデルランキング、2)テスト時間スケーリングのための応答選択、3)モデル微調整のためのデータ選択である。
論文 参考訳(メタデータ) (2024-10-14T01:57:25Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。