論文の概要: When LLM Judge Scores Look Good but Best-of-N Decisions Fail
- arxiv url: http://arxiv.org/abs/2603.12520v1
- Date: Thu, 12 Mar 2026 23:40:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.808802
- Title: When LLM Judge Scores Look Good but Best-of-N Decisions Fail
- Title(参考訳): LLM審査員の判断は良くないが、Nの判断は失敗に終わる
- Authors: Eddie Landesberg,
- Abstract要約: 大規模言語モデルは、しばしば審査員が候補の応答を採点し、単一のグローバルメトリックで検証するために使用される。
プロンプト内で実際のデプロイメントタスクが最良選択である場合、これは誤解を招く可能性がある。
審査に基づく選択においては、関連する監査は、グローバルな合意だけでは無く、インイン・プロンプト信号、タイレート、リカバリ/トップ-1の精度を報告すべきである。
- 参考スコア(独自算出の注目度): 0.29465623430708904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are often used as judges to score candidate responses, then validated with a single global metric such as correlation with reference labels. This can be misleading when the real deployment task is best-of-n selection within a prompt. In a 5,000-prompt best-of-4 benchmark from Chatbot Arena, a judge with moderate global correlation (r = 0.47) captures only 21.0% of the improvement that perfect selection would achieve over random choice. The gap arises because global agreement is driven largely by prompt-level baseline effects, while selection depends on within-prompt ranking: within-prompt correlation is only r_within = 0.27, and coarse pointwise scoring creates ties in 67% of pairwise comparisons. In a matched-pair best-of-2 audit, explicit pairwise judging recovers much of this lost signal, raising recovery from 21.1% to 61.2%. For judge-based selection, the relevant audit should report within-prompt signal, tie rates, and recovery/top-1 accuracy, not global agreement alone.
- Abstract(参考訳): 大規模言語モデルは、しばしば審査員として、候補の応答を採点し、基準ラベルとの相関のような単一のグローバルな指標で検証する。
プロンプト内で実際のデプロイメントタスクが最良選択である場合、これは誤解を招く可能性がある。
Chatbot Arenaの5000発のベスト・オブ・フォー・フォー・4ベンチマークでは、適度なグローバル相関(r = 0.47)を持つ審査員は、ランダムな選択よりも完璧な選択が達成できる改善の21.0%しか取得できない。
このギャップは、大域的な合意は、主にプロンプトレベルのベースライン効果によって駆動されるのに対して、選択はプロンプト内ランクに依存しているためである: 内部プロンプト相関は r_within = 0.27 のみであり、粗いポイントワイドスコアリングは、ペアワイズ比較の67%で関係を生じさせる。
一致した2対のベスト・オブ・ツーの監査では、露骨な判断によってこの失われた信号の大半が回復し、21.1%から61.2%に回復した。
審査に基づく選択においては、関連する監査は、グローバルな合意だけでは無く、インイン・プロンプト信号、タイレート、リカバリ/トップ-1の精度を報告すべきである。
関連論文リスト
- Re-Rankers as Relevance Judges [65.37611299805856]
再ランカ・アズ・レバレンス・ジャッジ設定で再ランカを再現する。
TREC-DL 2019〜2023では,220Mから32Bの3家族から8人の再ランカを対象に実験を行い,再ランカに基づく審査員による評価バイアスを分析した。
論文 参考訳(メタデータ) (2026-01-08T00:02:59Z) - ORCA: Open-ended Response Correctness Assessment for Audio Question Answering [41.72231074041232]
本研究では,予測精度と不確実性の両方を予測するために,ベータ分布を用いた人的判断の変動をモデル化するフレームワークORCAを提案する。
我々は15のLALMから11,721のアノテーションを収集し,0.82(クリッペンドルフのα)のアノテータ間契約を達成した。
論文 参考訳(メタデータ) (2025-11-28T14:41:48Z) - Fortytwo: Swarm Inference with Peer-Ranked Consensus [36.94429692322632]
我々は、AI推論において優れたパフォーマンスを達成するために、Swarmの知能原則と分散ペアのランキングコンセンサスを活用する新しいプロトコルFortytwoを提案する。
独自のBradley-Terry-styleアグリゲーションモデルを用いて、Swarm推論が多数決をかなり上回ることを示す。
論文 参考訳(メタデータ) (2025-10-27T23:19:48Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - ObjexMT: Objective Extraction and Metacognitive Calibration for LLM-as-a-Judge under Multi-Turn Jailbreaks [12.396822247035578]
目的抽出とメタ認知のためのベンチマークであるexMTを提案する。
マルチターン書き起こしが与えられた場合、モデルは1文ベース目標と自己報告された自信を出力しなければならない。
正確性は金の目標と類似性によって評価され、300の校正項目で1度閾値付けされる。
論文 参考訳(メタデータ) (2025-08-23T03:32:04Z) - Confidence and Stability of Global and Pairwise Scores in NLP Evaluation [7.094351095888013]
本稿では,グローバルスコアとペア比較の長所と短所を実証的に検討する。
グローバルスコアは、より信頼性の高い総合ランキングを提供する一方で、希少で重大なエラーや信頼性の低い強力なモデルを過小評価できることがわかった。
論文 参考訳(メタデータ) (2025-07-02T12:05:22Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。