論文の概要: Distribution-Calibrated Inference time compute for Thinking LLM-as-a-Judge
- arxiv url: http://arxiv.org/abs/2512.03019v1
- Date: Tue, 02 Dec 2025 18:46:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:46.009867
- Title: Distribution-Calibrated Inference time compute for Thinking LLM-as-a-Judge
- Title(参考訳): LLM-as-a-Judge を考慮した分布キャリブレーション推論時間計算
- Authors: Hamid Dadkhahi, Firas Trabelsi, Parker Riley, Juraj Juraska, Mehdi Mirzazadeh,
- Abstract要約: 大きな言語モデル(LLM)をペアの選好の判断に使用すると、単一サンプルレベルではノイズが残る。
本研究では,各項目ごとにn個の独立した思考型サンプルを生成する評価器の推論時間計算(ITC)について検討する。
- 参考スコア(独自算出の注目度): 5.855996386998925
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Thinking Large Language Models (LLMs) used as judges for pairwise preferences remain noisy at the single-sample level, and common aggregation rules (majority vote, soft self-consistency, or instruction-based self-aggregation) are inconsistent when ties are allowed. We study inference-time compute (ITC) for evaluators that generate n independent thinking-rating samples per item, and propose a principled, distribution-calibrated aggregation scheme. Our method models three-way preferences with a Bradley-Terry-Davidson formulation on rating counts, leveraging both polarity (margin among non-ties) and decisiveness (non-tie rate) to distinguish narrow margins from strong consensus. Across various evaluation benchmarks, our approach consistently reduces MAE and increases pairwise accuracy versus standard baselines, and when evaluated against human-consensus meta-labels, matches or exceeds individual human raters. These results show that carefully allocating ITC and aggregating with distribution-aware methods turns noisy individual model judgments into reliable ratings for evaluation.
- Abstract(参考訳): 大きな言語モデル(LLM)は、ペアの選好を判断するために用いられるが、単一サンプルレベルではノイズが残っており、共通集約ルール(多数決、ソフトな自己整合性、命令ベースの自己集合)は、コネクションが許されるときに矛盾する。
本研究では,各項目ごとにn個の独立した思考格付けサンプルを生成する評価器の予測時間計算(ITC)について検討し,分布校正方式を提案する。
提案手法は,三方向の選好をブラッドリー・テリー・ダビッドソンの定式化による評価数に基づいてモデル化し,極性(非関係の差)と決定性(非利率)を両立させて,狭いマージンと強いコンセンサスを区別する。
様々な評価ベンチマークにおいて,提案手法はMAEを一貫して低減し,標準ベースラインよりもペアワイズ精度を向上する。
これらの結果から,ITCを慎重にアロケートし,分布認識手法で集約することで,ノイズの多い個人モデルの判断を信頼性の高い評価に変換することがわかった。
関連論文リスト
- Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - CCE: Confidence-Consistency Evaluation for Time Series Anomaly Detection [56.302586730134806]
本稿では,新しい評価指標である信頼性・一貫性評価(CCE)を紹介する。
CCEは同時に、予測の信頼性と不確実性を測定する。
RankEvalは、さまざまなメトリクスのランキング機能を比較するためのベンチマークです。
論文 参考訳(メタデータ) (2025-09-01T03:38:38Z) - Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
評価のためのフィードバックプロトコルの選択は,評価信頼性に大きく影響し,系統的なバイアスを生じさせることを示す。
ジェネレータモデルは、気を散らす機能を埋め込むことで好みをひっくり返すことができる。
我々は,データセットの特徴と評価目標に基づくフィードバックプロトコルの選択を推奨する。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z) - Compare without Despair: Reliable Preference Evaluation with Generation Separability [20.50638483427141]
テストインスタンスがペアの選好評価にどの程度適しているかを推定する尺度であるセパビリティ(Separability)を導入する。
候補テストインスタンスでは、セパビリティは1組のモデルから複数の世代をサンプリングし、2つの世代がどの程度区別可能であるかを測定する。
実験により、分離性が高いインスタンスは、人間と自動レーダの両方からより一貫した選好格付けが得られることが示された。
論文 参考訳(メタデータ) (2024-07-02T01:37:56Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。