論文の概要: Curse of Knowledge: When Complex Evaluation Context Benefits yet Biases LLM Judges
- arxiv url: http://arxiv.org/abs/2509.03419v1
- Date: Wed, 03 Sep 2025 15:48:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.580296
- Title: Curse of Knowledge: When Complex Evaluation Context Benefits yet Biases LLM Judges
- Title(参考訳): 知識の曲線: 複雑な評価コンテキストがまだLLM判事に利益をもたらすとき
- Authors: Weiyuan Li, Xintao Wang, Siyu Yuan, Rui Xu, Jiangjie Chen, Qingqing Dong, Yanghua Xiao, Deqing Yang,
- Abstract要約: 審査員としての大規模言語モデル(LLM)のパラダイムはスケーラブルなソリューションとして登場したが、以前の作業は主に単純な設定に焦点を当てていた。
我々の詳細な分析は、評価信号の精度と妥当性を向上させるための重要な洞察を提供する。
- 参考スコア(独自算出の注目度): 72.3356133063925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) grow more capable, they face increasingly diverse and complex tasks, making reliable evaluation challenging. The paradigm of LLMs as judges has emerged as a scalable solution, yet prior work primarily focuses on simple settings. Their reliability in complex tasks--where multi-faceted rubrics, unstructured reference answers, and nuanced criteria are critical--remains understudied. In this paper, we constructed ComplexEval, a challenge benchmark designed to systematically expose and quantify Auxiliary Information Induced Biases. We systematically investigated and validated 6 previously unexplored biases across 12 basic and 3 advanced scenarios. Key findings reveal: (1) all evaluated models exhibit significant susceptibility to these biases, with bias magnitude scaling with task complexity; (2) notably, Large Reasoning Models (LRMs) show paradoxical vulnerability. Our in-depth analysis offers crucial insights for improving the accuracy and verifiability of evaluation signals, paving the way for more general and robust evaluation models.
- Abstract(参考訳): 大規模言語モデル(LLM)の能力が向上するにつれて、ますます多様で複雑なタスクに直面し、信頼性の高い評価が困難になる。
審査員としてのLLMのパラダイムはスケーラブルなソリューションとして登場したが、以前の作業は主に単純な設定に焦点を当てていた。
複雑なタスクにおける信頼性 - 複数面のルーブリック、非構造化の参照回答、およびニュアンス付き基準 - が検討されている。
本稿では,Auxiliary Information によるビアーゼを体系的に公開・定量化するための課題ベンチマークである ComplexEval を構築した。
我々は12の基本的なシナリオと3つの高度なシナリオにまたがる6つの未探索バイアスを体系的に検討し、検証した。
主な知見は,(1)全ての評価モデルがこれらのバイアスに対して大きな感受性を示し,(2)大きな推論モデル(LRM)はパラドックス的脆弱性を示す。
我々の詳細な分析は、評価信号の精度と妥当性を向上させる上で重要な洞察を与え、より汎用的で堅牢な評価モデルへの道を開く。
関連論文リスト
- CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Reasoning Models Can be Easily Hacked by Fake Reasoning Bias [59.79548223686273]
我々は、Reasoning Theatre Bias (RTB)を評価するための総合的なベンチマークTheATERを紹介する。
簡単なクイズとフェイク・オブ・サートを含む6種類のバイアスタイプについて検討した。
我々は、RTBの最も強力な形式として、'hallow reasoning'-plausibleだが欠陥のある議論を識別する。
論文 参考訳(メタデータ) (2025-07-18T09:06:10Z) - VerifyBench: A Systematic Benchmark for Evaluating Reasoning Verifiers Across Domains [19.579511315215424]
大規模な言語モデルは、フィードバックを通じて推論能力を高めるために強化学習に依存している。
既存の研究では、より良い検証器の構築に焦点が当てられているが、異なる種類の検証器の性能の体系的な評価は依然として不十分である。
我々は、数学、物理学、化学、生物学に関する4000のエキスパートレベルの質問を構築した。
各質問には基準回答と多様な応答が備わっている。
論文 参考訳(メタデータ) (2025-07-14T03:45:24Z) - Quantifying Generalization Complexity for Large Language Models [31.721781613271066]
大規模言語モデルの一般化能力を定量的に測定する動的評価フレームワークであるScyllaを紹介する。
Scyllaは、イン・ディストリビューション(ID)データとアウト・オブ・ディストリビューション(OOD)データの両方でモデル性能を評価することによって、メモリ化から一般化を遠ざける。
LLaMAやQwenファミリといったオープンソースモデルと、ClaudeやGPTといったクローズソースモデルの両方を含む28LLMをベンチマークします。
論文 参考訳(メタデータ) (2024-10-02T17:25:37Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。