論文の概要: Rethinking LLM-as-a-Judge: Representation-as-a-Judge with Small Language Models via Semantic Capacity Asymmetry
- arxiv url: http://arxiv.org/abs/2601.22588v1
- Date: Fri, 30 Jan 2026 05:34:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.249889
- Title: Rethinking LLM-as-a-Judge: Representation-as-a-Judge with Small Language Models via Semantic Capacity Asymmetry
- Title(参考訳): LLM-as-a-Judgeの再考:意味的容量非対称性による小言語モデルによる表現-as-a-Judge
- Authors: Zhuochun Li, Yong Zhang, Ming Li, Yuelyu Ji, Yiming Zeng, Ning Cheng, Yun Zhu, Yanmeng Wang, Shaojun Wang, Jing Xiao, Daqing He,
- Abstract要約: 曲面生成の代わりに内部表現を活用することにより,より小さなモデルで効率的な評価を行うことができるかどうかを検討する。
本稿では,セマンティック・キャパシティ非対称性仮説を提案する。
我々は、このパラダイムを、小さなモデル表現からアスペクトレベルの評価スコアを予測する探索ベースのフレームワークであるINSPECTORを通じてインスタンス化する。
- 参考スコア(独自算出の注目度): 41.26991813225211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are widely used as reference-free evaluators via prompting, but this "LLM-as-a-Judge" paradigm is costly, opaque, and sensitive to prompt design. In this work, we investigate whether smaller models can serve as efficient evaluators by leveraging internal representations instead of surface generation. We uncover a consistent empirical pattern: small LMs, despite with weak generative ability, encode rich evaluative signals in their hidden states. This motivates us to propose the Semantic Capacity Asymmetry Hypothesis: evaluation requires significantly less semantic capacity than generation and can be grounded in intermediate representations, suggesting that evaluation does not necessarily need to rely on large-scale generative models but can instead leverage latent features from smaller ones. Our findings motivate a paradigm shift from LLM-as-a-Judge to Representation-as-a-Judge, a decoding-free evaluation strategy that probes internal model structure rather than relying on prompted output. We instantiate this paradigm through INSPECTOR, a probing-based framework that predicts aspect-level evaluation scores from small model representations. Experiments on reasoning benchmarks (GSM8K, MATH, GPQA) show that INSPECTOR substantially outperforms prompting-based small LMs and closely approximates full LLM judges, while offering a more efficient, reliable, and interpretable alternative for scalable evaluation.
- Abstract(参考訳): 大規模な言語モデル (LLM) は、プロンプトを介して参照不要評価器として広く使われているが、この"LLM-as-a-Judge"パラダイムはコストが高く、不透明で、プロンプト設計に敏感である。
本研究では,曲面生成の代わりに内部表現を活用することにより,より小さなモデルで効率的な評価を行うことができるかどうかを検討する。
小さいLMは、生成能力の弱いにもかかわらず、隠れた状態の豊かな評価信号をエンコードする。
このことは、セマンティック・キャパシティ非対称性仮説(Semantic Capacity Asymmetric hypothesis)を提案する動機である: 評価は生成よりもはるかに少ない意味能力を必要とし、中間表現に基礎を置くことができる。
本研究は,LLM-as-a-JudgeからRepresentation-as-a-Judgeへのパラダイムシフトを動機としている。
我々は、このパラダイムを、小さなモデル表現からアスペクトレベルの評価スコアを予測する探索ベースのフレームワークであるINSPECTORを通じてインスタンス化する。
推論ベンチマーク(GSM8K, MATH, GPQA)の実験では、INSPECTORは、より効率的で信頼性があり、スケーラブルな評価のための解釈可能な代替手段を提供しながら、プロンプトベースの小さなLMよりも大幅に優れ、完全なLLM判断に近似している。
関連論文リスト
- JudgeBoard: Benchmarking and Enhancing Small Language Models for Reasoning Evaluation [13.831735556002426]
小型言語モデル(SLM)は様々な推論タスクを約束している。
解答の正しさを判断する能力は、大言語モデル(LLM)と比較しても明らかでない。
論文 参考訳(メタデータ) (2025-11-20T01:14:39Z) - InverseScope: Scalable Activation Inversion for Interpreting Large Language Models [5.670123459649656]
InverseScopeは、入力インバージョンを介して神経活性化を解釈するための仮定ライトでスケーラブルなフレームワークである。
高次元空間におけるサンプリングの非効率性に対処するために,新しい条件生成アーキテクチャを提案する。
また,サンプル入力上で計算された特徴整合率を用いて,解釈可能性仮説をテストする定量的評価プロトコルを導入する。
論文 参考訳(メタデータ) (2025-06-09T03:59:28Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。