論文の概要: BERT-as-a-Judge: A Robust Alternative to Lexical Methods for Efficient Reference-Based LLM Evaluation
- arxiv url: http://arxiv.org/abs/2604.09497v1
- Date: Fri, 10 Apr 2026 17:08:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.973894
- Title: BERT-as-a-Judge: A Robust Alternative to Lexical Methods for Efficient Reference-Based LLM Evaluation
- Title(参考訳): BERT-as-a-Judge:効率的な参照型LCM評価のための語彙法に代わるロバストな代替手段
- Authors: Hippolyte Gisserot-Boukhlef, Nicolas Boizard, Emmanuel Malherbe, Céline Hudelot, Pierre Colombo,
- Abstract要約: 本稿では,参照型生成環境における回答の正当性を評価するためのエンコーダ駆動方式であるBERT-as-a-Judgeを紹介する。
より大規模なLLM審査員のパフォーマンスに適合しながら,語彙ベースラインを一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 11.37493959290663
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Accurate evaluation is central to the large language model (LLM) ecosystem, guiding model selection and downstream adoption across diverse use cases. In practice, however, evaluating generative outputs typically relies on rigid lexical methods to extract and assess answers, which can conflate a model's true problem-solving ability with its compliance with predefined formatting guidelines. While recent LLM-as-a-Judge approaches mitigate this issue by assessing semantic correctness rather than strict structural conformity, they also introduce substantial computational overhead, making evaluation costly. In this work, we first systematically investigate the limitations of lexical evaluation through a large-scale empirical study spanning 36 models and 15 downstream tasks, demonstrating that such methods correlate poorly with human judgments. To address this limitation, we introduce BERT-as-a-Judge, an encoder-driven approach for assessing answer correctness in reference-based generative settings, robust to variations in output phrasing, and requiring only lightweight training on synthetically annotated question-candidate-reference triplets. We show that it consistently outperforms the lexical baseline while matching the performance of much larger LLM judges, providing a compelling tradeoff between the two and enabling reliable, scalable evaluation. Finally, through extensive experimentation, we provide detailed insights into BERT-as-a-Judge's performance to offer practical guidance for practitioners, and release all project artifacts to foster downstream adoption.
- Abstract(参考訳): 正確な評価は、さまざまなユースケースにわたるモデル選択とダウンストリームの採用を導く、大きな言語モデル(LLM)エコシステムの中心である。
しかし、実際には、生成的アウトプットの評価は、通常、厳密な語彙的手法を使って答えを抽出し、評価する。
近年のLCM-as-a-Judgeアプローチでは、厳密な構造整合性よりも意味的正当性を評価することでこの問題を緩和しているが、計算オーバーヘッドも大幅に増加し、コストがかかる。
本研究ではまず,36のモデルと15の下流タスクにまたがる大規模実証研究を通じて,語彙評価の限界を体系的に検討し,これらの手法が人的判断と相関しないことを示した。
この制限に対処するため, BERT-as-a-Judgeは, 参照ベース生成環境における応答正当性を評価するためのエンコーダ駆動型アプローチであり, 出力句の変動に頑健であり, 合成注釈付き質問候補参照三重項に対してのみ軽量なトレーニングを必要とする。
より大規模なLCM判定器の性能に適合し, 信頼性, スケーラブルな評価を実現するとともに, 語彙ベースラインを一貫して上回ることを示す。
最後に、広範な実験を通じてBERT-as-a-Judgeのパフォーマンスに関する詳細な洞察を提供し、実践者に対して実践的なガイダンスを提供し、下流の採用を促進するためにすべてのプロジェクトアーティファクトをリリースする。
関連論文リスト
- Structured Multi-Criteria Evaluation of Large Language Models with Fuzzy Analytic Hierarchy Process and DualJudge [1.9029675742486802]
大規模言語モデル(LLM)の効果的な評価は、従来の直接スコアリングが矛盾し、不透明な判断を下すため、依然として重要なボトルネックとなっている。
解析階層プロセス(AHP)をLCMに基づく評価に適用し,信頼度を考慮したファジィAHP拡張を提案する。
構造化されたアプローチは、評価を明確な基準に分解し、不確実性を認識したアグリゲーションを取り入れ、より校正された判断を生み出す。
論文 参考訳(メタデータ) (2026-04-04T14:07:37Z) - Robust LLM Performance Certification via Constrained Maximum Likelihood Estimation [14.465019747508604]
制約付き最大自由度推定(MLE)に基づくLLM故障率推定の新しい,実用的で効率的なアプローチを提案する。
我々は、予測パワー推論(PPI)のような最先端のベースラインに対して、包括的な実証研究を通じてアプローチを検証する。
論文 参考訳(メタデータ) (2026-03-11T21:48:40Z) - Evaluating LLM-Based Grant Proposal Review via Structured Perturbations [18.689211845609623]
我々は、6つの品質軸にまたがるLLM感度を探索する摂動型フレームワークを開発した。
我々は, 単一パスレビュー, セクション・バイ・セクション分析, 専門家パネルをエミュレートした「ペルソナのカウンシル」という3つのレビューアーキテクチャを比較した。
論文 参考訳(メタデータ) (2026-03-09T11:53:50Z) - Context-Adaptive Requirements Defect Prediction through Human-LLM Collaboration [1.4499356176178066]
本稿では,欠陥予測を静的な分類タスクではなく適応プロセスとして扱うHuman-LLM Collaboration(HLC)アプローチを提案する。
メルセデス・ベンツの要求条件である1,266のQuREベンチマークの弱い単語の匂いを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2026-01-05T10:00:14Z) - Reference-Specific Unlearning Metrics Can Hide the Truth: A Reality Check [60.77691669644931]
本研究では,非学習モデルと参照モデル間の分布類似度を測定する新しい尺度であるFADE(Functional Alignment for Distributional Equivalence)を提案する。
FADEは出力分布全体の機能的アライメントをキャプチャし、真の未学習の原則的評価を提供する。
これらの知見は、現在の評価実践における根本的なギャップを明らかにし、FADEが真に効果的な未学習手法を開発し評価するための、より堅牢な基盤を提供することを示した。
論文 参考訳(メタデータ) (2025-10-14T20:50:30Z) - The LLM Already Knows: Estimating LLM-Perceived Question Difficulty via Hidden Representations [33.65540900920885]
大規模言語モデル(LLM)によって知覚される入力質問の難しさを推定することは、正確な性能評価と適応推論に不可欠である。
本稿では,LLMが生成する隠れ表現のみを利用する難易度推定手法を提案する。
論文 参考訳(メタデータ) (2025-09-16T09:38:41Z) - When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。