論文の概要: Reference-Free Rating of LLM Responses via Latent Information
- arxiv url: http://arxiv.org/abs/2509.24678v1
- Date: Mon, 29 Sep 2025 12:15:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.96633
- Title: Reference-Free Rating of LLM Responses via Latent Information
- Title(参考訳): 潜時情報を用いたLCM応答の基準自由レーティング
- Authors: Leander Girrbach, Chi-Ping Su, Tankred Saanum, Richard Socher, Eric Schulz, Zeynep Akata,
- Abstract要約: 本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
- 参考スコア(独自算出の注目度): 53.463883683503106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How reliable are single-response LLM-as-a-judge ratings without references, and can we obtain fine-grained, deterministic scores in this setting? We study the common practice of asking a judge model to assign Likert-scale scores to free-text responses and show two systematic issues: scores are unstable under sampling and poorly calibrated, leading to compression near the top of the scale and frequent ties. We then propose and evaluate Latent Judges, which derive scalar ratings from internal model signals: (i) probability-weighted scores over integer ratings, (ii) verifier-style probabilities of "yes", and (iii) linear probes trained on model activations at the rating position. Across a broad suite of pairwise and single-rating benchmarks, latent methods match or surpass standard prompting, with consistent gains on pairwise accuracy and listwise ranking relevant to Best-of-N selection. Probability-weighted scores achieve the strongest single-rating correlations, while probes recover useful signals when output logits are miscalibrated. These results indicate that latent information provides deterministic and more discriminative signals for reference-free evaluation, and can improve selection and training approaches like Best-of-$N$, multi-teacher distillation, and routing.
- Abstract(参考訳): 単一応答型LCM-as-a-judgeの基準のない評価はどの程度信頼性が高いのか。
本研究では, 判定モデルに対して, 自由テキスト応答にQuattスケールのスコアを割り当てるよう求め, サンプリング時にスコアが不安定であり, 校正が不十分で, 尺度の最上部付近の圧縮と頻繁な結びつきの2つの系統的問題を示す。
次に、内部モデル信号からスカラー評価を導出する潜在審査員を提案し、評価する。
(i)整数格付けに対する確率重み付きスコア
(二)「はい」及び「はい」の検証者型確率
三 モデルアクティベーションを評価位置で訓練した線形プローブ。
ペアワイズとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトと一致またはオーバーし、ペアワイズ精度とベストオブN選択に関連するリストワイズランキングに一貫した利得を持つ。
確率重み付きスコアは最強のシングルレイト相関を達成し、プローブは出力ロジットが誤校正されたときに有用な信号を回復する。
これらの結果から,潜伏情報により,非参照評価のための決定的,より識別的な信号が提供され,Best-of-N$,マルチティーチンガー蒸留,ルーティングといった選択とトレーニングのアプローチが向上することが示された。
関連論文リスト
- SCOPE: Stochastic and Counterbiased Option Placement for Evaluating Large Language Models [0.27309692684728604]
大規模言語モデル(LLM)は、選択肢の位置やラベルに固有のバイアスを生かして、複数の選択タスクの膨らませたスコアを達成できる。
本研究では,データセットに依存しない方法で選択バイアスを計測・緩和するSCOPEを提案する。
論文 参考訳(メタデータ) (2025-07-24T08:28:17Z) - Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
評価のためのフィードバックプロトコルの選択は,評価信頼性に大きく影響し,系統的なバイアスを生じさせることを示す。
ジェネレータモデルは、気を散らす機能を埋め込むことで好みをひっくり返すことができる。
我々は,データセットの特徴と評価目標に基づくフィードバックプロトコルの選択を推奨する。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Unbiased Learning to Rank with Biased Continuous Feedback [5.561943356123711]
雑音フィードバックに基づいて相対関係を正確にモデル化するために,非バイアス学習 to ランク(LTR)アルゴリズムを検証した。
パーソナライズされた高品質なレコメンデーション結果を提供するために、レコメンダシステムはカテゴリと継続的なバイアスフィードバックの両方をモデルにする必要があります。
位置バイアス、信頼バイアス、ユーザ関係を明確に区別するために、ペアワイズ信頼バイアスを導入します。
Tencent Newsの公開ベンチマークデータセットと大規模レコメンデータシステムの内部ライブトラフィックの実験結果は、連続ラベルに対して優れた結果を示している。
論文 参考訳(メタデータ) (2023-03-08T02:14:08Z) - Unbiased Pairwise Learning to Rank in Recommender Systems [4.058828240864671]
アルゴリズムをランク付けする偏見のない学習は、候補をアピールし、既に単一の分類ラベルを持つ多くのアプリケーションに適用されている。
本稿では,この課題に対処するための新しい非バイアス付きLTRアルゴリズムを提案する。
パブリックベンチマークデータセットと内部ライブトラフィックを用いた実験結果から,分類ラベルと連続ラベルのいずれにおいても提案手法の優れた結果が得られた。
論文 参考訳(メタデータ) (2021-11-25T06:04:59Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。