論文の概要: Bridging Human and LLM Judgments: Understanding and Narrowing the Gap
- arxiv url: http://arxiv.org/abs/2508.12792v1
- Date: Mon, 18 Aug 2025 10:14:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.178028
- Title: Bridging Human and LLM Judgments: Understanding and Narrowing the Gap
- Title(参考訳): 人とLLMの判断をブリッジする:ギャップの理解と狭義化
- Authors: Felipe Maia Polo, Xinhe Wang, Mikhail Yurochkin, Gongjun Xu, Moulinath Banerjee, Yuekai Sun,
- Abstract要約: 大規模言語モデルは、モデルアウトプットを大規模に評価するために、審査員(LLM-as-a-judge)として使われることが多い。
我々は、人間とLLMの評価を明示的に橋渡しする統一統計フレームワークであるBridgeを提案する。
- 参考スコア(独自算出の注目度): 39.90675202514829
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly used as judges (LLM-as-a-judge) to evaluate model outputs at scale, but their assessments often diverge systematically from human judgments. We present Bridge, a unified statistical framework that explicitly bridges human and LLM evaluations under both absolute scoring and pairwise comparison paradigms. Bridge posits a latent human preference score for each prompt-response pair and models LLM deviations as linear transformations of covariates that capture sources of discrepancies. This offers a simple and principled framework for refining LLM ratings and characterizing systematic discrepancies between humans and LLMs. We provide an efficient fitting algorithm with asymptotic guarantees for statistical inference. Using six LLM judges and two benchmarks (BigGen Bench and Chatbot Arena), Bridge achieves higher agreement with human ratings (accuracy, calibration, and KL divergence) and exposes systematic human-LLM gaps.
- Abstract(参考訳): 大規模言語モデルは、モデルアウトプットを大規模に評価するために、裁判官(LLM-as-a-judge)として使われることが多いが、その評価は人的判断と体系的に異なることが多い。
絶対スコアリングとペア比較の両方のパラダイムの下で、人間とLLMの評価を明示的にブリッジする統合統計フレームワークであるBridgeを提案する。
ブリッジは、各プロンプト応答対に対する遅延した人間の嗜好スコアを示し、LCM偏差を相違点を捉える共変体の線形変換としてモデル化する。
これは、LLMの格付けを洗練し、人間とLLMの体系的な相違を特徴付けるための、シンプルで原則化されたフレームワークを提供する。
統計的推論の漸近的保証を有する効率的なフィッティングアルゴリズムを提案する。
6人のLSM判事と2つのベンチマーク(BigGen BenchとChatbot Arena)を使用して、Bridgeは人間の評価(正確性、校正、KLのばらつき)とのより高い一致を実現し、体系的な人間とLLMのギャップを露呈する。
関連論文リスト
- Relative Bias: A Comparative Framework for Quantifying Bias in LLMs [29.112649816695203]
相対バイアス(Relative Bias)は、LLMの振る舞いが特定のターゲットドメイン内の他のLLMとどのようにずれているかを評価するために設計された手法である。
本稿では,(1)埋め込み空間上の文表現を通して相対的バイアスパターンをキャプチャする埋め込み変換解析と,(2)言語モデルを用いて出力を相対的に評価するLLM-as-a-Judgeという2つの相補的手法を紹介する。
検証のための統計的テストに続くバイアスとアライメントのシナリオに関するいくつかのケーススタディに我々のフレームワークを適用し、この2つのスコアリング手法の間に強い整合性を見出した。
論文 参考訳(メタデータ) (2025-05-22T01:59:54Z) - Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - Fairer Preferences Elicit Improved Human-Aligned Large Language Model Judgments [41.25558612970942]
大規模言語モデル (LLMs) が優先バイアスを示し, 設計に敏感であることを示す。
この現象に触発された自動ゼロショット評価指向のプロンプト最適化フレームワークZEPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T09:48:53Z) - Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition [38.822535662755314]
大規模言語モデル(LLM)のためのサンプル効率のよい人的評価手法を提案する。
提案手法は,LLM応答のペア間のセマンティックな差異を最大化する,コンパクトな入力命令セットを自動的に適応的に選択する。
人間の評価者は、これらのペア化された反応に対して3つの代替的な選択を行い、エロ評価を用いてグローバルなランキングに集約される。
論文 参考訳(メタデータ) (2024-04-10T01:26:24Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。