論文の概要: Curse of Knowledge: When Complex Evaluation Context Benefits yet Biases LLM Judges
- arxiv url: http://arxiv.org/abs/2509.03419v2
- Date: Fri, 31 Oct 2025 09:50:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 15:46:17.541538
- Title: Curse of Knowledge: When Complex Evaluation Context Benefits yet Biases LLM Judges
- Title(参考訳): 知識の曲線: 複雑な評価コンテキストがまだLLM判事に利益をもたらすとき
- Authors: Weiyuan Li, Xintao Wang, Siyu Yuan, Rui Xu, Jiangjie Chen, Qingqing Dong, Yanghua Xiao, Deqing Yang,
- Abstract要約: 審査員としての大規模言語モデル(LLM)のパラダイムはスケーラブルなソリューションとして登場したが、以前の作業は主に単純な設定に焦点を当てていた。
我々の詳細な分析は、評価信号の精度と妥当性を向上させるための重要な洞察を提供する。
- 参考スコア(独自算出の注目度): 72.3356133063925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) grow more capable, they face increasingly diverse and complex tasks, making reliable evaluation challenging. The paradigm of LLMs as judges has emerged as a scalable solution, yet prior work primarily focuses on simple settings. Their reliability in complex tasks--where multi-faceted rubrics, unstructured reference answers, and nuanced criteria are critical--remains understudied. In this paper, we constructed ComplexEval, a challenge benchmark designed to systematically expose and quantify Auxiliary Information Induced Biases. We systematically investigated and validated 6 previously unexplored biases across 12 basic and 3 advanced scenarios. Key findings reveal: (1) all evaluated models exhibit significant susceptibility to these biases, with bias magnitude scaling with task complexity; (2) notably, Large Reasoning Models (LRMs) show paradoxical vulnerability. Our in-depth analysis offers crucial insights for improving the accuracy and verifiability of evaluation signals, paving the way for more general and robust evaluation models.
- Abstract(参考訳): 大規模言語モデル(LLM)の能力が向上するにつれて、ますます多様で複雑なタスクに直面し、信頼性の高い評価が困難になる。
審査員としてのLLMのパラダイムはスケーラブルなソリューションとして登場したが、以前の作業は主に単純な設定に焦点を当てていた。
複雑なタスクにおける信頼性 - 複数面のルーブリック、非構造化の参照回答、およびニュアンス付き基準 - が検討されている。
本稿では,Auxiliary Information によるビアーゼを体系的に公開・定量化するための課題ベンチマークである ComplexEval を構築した。
我々は12の基本的なシナリオと3つの高度なシナリオにまたがる6つの未探索バイアスを体系的に検討し、検証した。
主な知見は,(1)全ての評価モデルがこれらのバイアスに対して大きな感受性を示し,(2)大きな推論モデル(LRM)はパラドックス的脆弱性を示す。
我々の詳細な分析は、評価信号の精度と妥当性を向上させる上で重要な洞察を与え、より汎用的で堅牢な評価モデルへの道を開く。
関連論文リスト
- Enhancing the QA Model through a Multi-domain Debiasing Framework [1.7802147489386633]
本研究では,SQuAD(Stanford Question Answering dataset) v1.1とAddSentとAddOneSentの対立データセットを用いたELECTRA小モデルの評価を行った。
我々は,知識蒸留,デバイアス技術,ドメイン拡張を取り入れたマルチドメインデバイアスフレームワークを開発した。
論文 参考訳(メタデータ) (2026-01-01T08:39:07Z) - Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。
ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文 参考訳(メタデータ) (2025-12-31T13:55:54Z) - Beyond Overall Accuracy: A Psychometric Deep Dive into the Topic-Specific Medical Capabilities of 80 Large Language Models [6.362188639024662]
項目応答理論(IRT)に基づく厳密な評価フレームワークであるtextscMedIRT を紹介する。
80の多種多様な言語モデル (LLMs) から, バランスのとれた1,100のUSMLE準拠のベンチマークで, 新たな回答を期待して収集した。
LLMの潜在モデル能力は質問の難易度や識別と共同で推定し、精度のみよりも安定でニュアンスの高い性能ランキングを得る。
論文 参考訳(メタデータ) (2025-09-29T02:06:13Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Reasoning Models Can be Easily Hacked by Fake Reasoning Bias [59.79548223686273]
我々は、Reasoning Theatre Bias (RTB)を評価するための総合的なベンチマークTheATERを紹介する。
簡単なクイズとフェイク・オブ・サートを含む6種類のバイアスタイプについて検討した。
我々は、RTBの最も強力な形式として、'hallow reasoning'-plausibleだが欠陥のある議論を識別する。
論文 参考訳(メタデータ) (2025-07-18T09:06:10Z) - VerifyBench: A Systematic Benchmark for Evaluating Reasoning Verifiers Across Domains [19.579511315215424]
大規模な言語モデルは、フィードバックを通じて推論能力を高めるために強化学習に依存している。
既存の研究では、より良い検証器の構築に焦点が当てられているが、異なる種類の検証器の性能の体系的な評価は依然として不十分である。
我々は、数学、物理学、化学、生物学に関する4000のエキスパートレベルの質問を構築した。
各質問には基準回答と多様な応答が備わっている。
論文 参考訳(メタデータ) (2025-07-14T03:45:24Z) - Don't Take the Premise for Granted: Evaluating the Premise Critique Ability of Large Language Models [11.379764847748378]
大規模言語モデル(LLM)は、しばしば欠陥や矛盾した前提を受け入れ、非効率な推論と信頼できない出力をもたらす。
このことは、入力前提におけるエラーを積極的に識別し、明示する能力として定義されたLSMのためのtextbfPremise Critique Aabilities を持つことの重要性を強調している。
我々は,3つの難易度に4つのエラータイプを組み込んで設計したtextbfPremise Critique Bench (PCBench) を,多面的評価指標と組み合わせて紹介する。
論文 参考訳(メタデータ) (2025-05-29T17:49:44Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Quantifying Generalization Complexity for Large Language Models [31.721781613271066]
大規模言語モデルの一般化能力を定量的に測定する動的評価フレームワークであるScyllaを紹介する。
Scyllaは、イン・ディストリビューション(ID)データとアウト・オブ・ディストリビューション(OOD)データの両方でモデル性能を評価することによって、メモリ化から一般化を遠ざける。
LLaMAやQwenファミリといったオープンソースモデルと、ClaudeやGPTといったクローズソースモデルの両方を含む28LLMをベンチマークします。
論文 参考訳(メタデータ) (2024-10-02T17:25:37Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。