論文の概要: Self-Evaluation Is Already There: Eliciting Latent Judge Calibration in Base LLMs with Minimal Data
- arxiv url: http://arxiv.org/abs/2606.05122v1
- Date: Wed, 03 Jun 2026 17:27:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.927833
- Title: Self-Evaluation Is Already There: Eliciting Latent Judge Calibration in Base LLMs with Minimal Data
- Title(参考訳): 自己評価はすでに始まっている:最小限のデータによるベースLLMにおける潜在的判断の校正
- Authors: XiuYu Zhang, Yi Shan, Junfeng Fang, Zhenkai Liang,
- Abstract要約: 大規模言語モデルは、他のモデルによってますます評価され、自然な疑問が提起されている。
本稿では, 自己評価抽出(SEE)手法について紹介する。この手法は, キャリブレーション結合型強化学習フェーズを含む短いサイクルで, 応答を改善し, 審査員を予測し, 次いで, 応答を無触で残しながら, 予測を鋭くするマスク付き蒸留フェーズを備える。
帰属した自己評価は、モデル自身のトークン分布内で急激に局所化され、訓練されたことのない審査員間で安定しており、単一の審査員ではなく、品質の伝達可能な概念を示している」。
- 参考スコア(独自算出の注目度): 21.469213097004523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly evaluated by other models, raising a natural question: can a model predict how a judge will score its own output? We find that the ability is largely present before any targeted training: prompted few-shot, a base model already predicts an external judge's multi-attribute quality scores on open-ended responses well above chance across three benchmarks. We introduce Self-Evaluation Elicitation (SEE), a method that surfaces this latent ability through a short cycle comprising a calibration-coupled reinforcement learning phase that improves the answer and predicts the judge, followed by a masked distillation phase that sharpens the prediction while leaving the answer untouched. From 160 unique examples, roughly 31x fewer than a reinforcement learning baseline, SEE improves held-out calibration across three benchmarks while preserving answer quality. The elicited self-evaluation is sharply localized within the model's own token distribution and stable across judges it was never trained against, indicating a transferable notion of quality rather than a single judge's preference. These results reframe judge-aligned self-evaluation as a problem of elicitation rather than acquisition.
- Abstract(参考訳): 大規模言語モデルは、他のモデルによってますます評価され、自然な疑問が提起されている。
ベースモデルは、既に外部の裁判官のマルチ属性品質スコアを予測しており、3つのベンチマークで確率よりもはるかに高い結果が得られます。
本稿では, 自己評価抽出(SEE)手法について紹介する。この手法は, キャリブレーション結合型強化学習フェーズを含む短いサイクルで, 応答を改善し, 審査員を予測し, 次いで, 応答を無触で残しながら, 予測を鋭くするマスク付き蒸留フェーズを備える。
強化学習ベースラインよりも約31倍少ない160のユニークな例から、SEEは3つのベンチマークでキャリブレーションを保ちながら、回答の品質を保っている。
引き起こされた自己評価は、モデル自身のトークン分布内で急激に局所化され、訓練されたことのない審査員間で安定し、単一の審査員の好みよりも品質の伝達可能な概念を示している。
これらの結果から, 自己評価は, 獲得というよりも, 勧誘の問題として再検討された。
関連論文リスト
- Are LLM Evaluators Really Narcissists? Sanity Checking Self-Preference Evaluations [3.262230127283452]
審査員が不正に完了したクエリに応答すると,評価者が自己優先の判断を下す可能性があることを示す。
評価基準(Evaluator Quality Baseline)を導入し,審査員が不正に投票した確率と,別のモデルから不正な反応を投票した確率とを比較した。
論文 参考訳(メタデータ) (2026-01-30T04:38:18Z) - Self-Improving VLM Judges Without Human Annotations [74.29324865147838]
自己合成データのみを用いて,人間の好みのアノテーションを使わずにVLM判断モデルを自己学習する枠組みを提案する。
提案手法は,Llama-3.2-11Bマルチモーダル判定を0.38から0.51に改善する。
これらの注釈のない結果の全体的な強みは、VLM能力の急速な向上とともに進化する将来の自己判断の可能性を示している。
論文 参考訳(メタデータ) (2025-12-02T20:52:19Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards [72.44810390478229]
CompassJudger-2は、タスク駆動のマルチドメインデータキュレーション戦略によって制限を克服する新しいジェネラリストジャッジモデルである。
CompassJudger-2は、複数の判定と報奨ベンチマークで優れた結果を得る。
論文 参考訳(メタデータ) (2025-07-12T01:34:24Z) - Beyond the Surface: Measuring Self-Preference in LLM Judgments [35.66285592603435]
大規模言語モデル(LLM)は、裁判官として機能する際の自己選好バイアスを示す。
既存の方法は、審査員モデルが割り当てるスコアと、他のモデルからのレスポンスに割り当てるスコアの差を計算することで、このバイアスを測定するのが一般的である。
そこで本研究では,自己選好バイアス(自己選好バイアス)を測定するDBGスコアを提案する。
論文 参考訳(メタデータ) (2025-06-03T08:12:47Z) - Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators [66.83088028268318]
本稿では,テスト時間スケーリングベンチマークの判定評価について紹介する。
3つのタスク設定の下で、3つのドメイン(推論、コード生成、命令従)での判定性能を評価する。
我々のベンチマークは、審査員が再評価において結果報酬モデルと競合する一方で、ビームサーチにおけるプロセス報酬モデルよりも一貫して悪いことを示している。
論文 参考訳(メタデータ) (2025-04-21T17:33:23Z) - Self-rationalization improves LLM as a fine-grained judge [21.917301609125417]
本稿では,判断モデルの合理性を改善する反復的プロセスである自己帰納化を導入する。
自己合理化は、モデルが同じ入力に対して合理性を持つ複数の判断を生成させることで機能する。
我々のモデルは、SFTで訓練されたモデルと比較して平均62%の利益率で、より高い品質の合理性を生み出すことを学習している。
論文 参考訳(メタデータ) (2024-10-07T21:05:53Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。