論文の概要: SCOPE: Selective Conformal Optimized Pairwise LLM Judging
- arxiv url: http://arxiv.org/abs/2602.13110v1
- Date: Fri, 13 Feb 2026 17:10:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:54.052931
- Title: SCOPE: Selective Conformal Optimized Pairwise LLM Judging
- Title(参考訳): SCOPE:選択的コンフォーマル最適化 LLM 判断
- Authors: Sher Badshah, Ali Emami, Hassan Sajjad,
- Abstract要約: 大規模言語モデル (LLMs) は、コストのかかる人間の選好ラベルをペア評価で置き換えるために、裁判官としてますます使われている。
実用性にも拘わらず、LLMの審査員は、誤校正や体系的な偏見に悩まされる傾向にある。
本稿では,有限サンプル統計保証から選択的に判断するフレームワークであるSCOPEを提案する。
- 参考スコア(独自算出の注目度): 16.73004625486562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used as judges to replace costly human preference labels in pairwise evaluation. Despite their practicality, LLM judges remain prone to miscalibration and systematic biases. This paper proposes SCOPE (Selective Conformal Optimized Pairwise Evaluation), a framework for selective pairwise judging with finite-sample statistical guarantees. Under exchangeability, SCOPE calibrates an acceptance threshold such that the error rate among non-abstained judgments is at most a user-specified level $α$. To provide SCOPE with a bias-neutral uncertainty signal, we introduce Bidirectional Preference Entropy (BPE), which queries the judge under both response positions, aggregates the implied preference probabilities to enforce invariance to response order, and converts the aggregated probability into an entropy-based uncertainty score. Across MT-Bench, RewardBench, and Chatbot Arena, BPE improves uncertainty quality over standard confidence proxies, providing a stronger selection signal that enables SCOPE to consistently meet the target risk level while retaining good coverage across judge scales. In particular, at $α= 0.10$, \textsc{Scope} consistently satisfies the risk bound across all benchmarks and judge scales (empirical risk $\approx 0.097$ to $0.099$), while retaining substantial coverage, reaching $0.89$ on RewardBench with Qwen-14B and $0.98$ on RewardBench with Qwen-32B. Compared to naïve baselines, \textsc{Scope} accepts up to $2.4\times$ more judgments on MT-Bench with Qwen-7B under the same target risk constraint, demonstrating that BPE enables reliable and high-coverage LLM-based evaluation.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、コストのかかる人間の選好ラベルをペア評価で置き換えるために、裁判官としてますます使われている。
実用性にも拘わらず、LLMの審査員は、誤校正や体系的な偏見に悩まされる傾向にある。
本稿では,有限サンプル統計保証を用いた選択的ペアワイズ判定のためのSCOPE(Selective Conformal Optimized Pairwise Evaluation)を提案する。
交換性の下で、SCOPEは、非持続的判断の誤差率が少なくともユーザ指定レベル$α$であるように、受け入れ閾値を校正する。
バイアスニュートラルな不確実性信号を持つSCOPEを提供するため、両応答位置で裁判官を問合せ、応答順に不変性を強制するインプリート選好確率を集約し、集約された確率をエントロピーベースの不確実性スコアに変換する双方向選好エントロピー(BPE)を導入する。
MT-Bench、RewardBench、Chatbot Arenaの他、BPEは標準信頼プロキシよりも不確実性を向上し、SCOPEが判定スケールにわたって良好なカバレッジを維持しながら、目標リスクレベルを一貫して満たせるような、より強力な選択信号を提供する。
特に、$α= 0.10$, \textsc{Scope} は、Qwen-32B で RewardBench で 0.9$, Qwen-32B で RewardBench で 0.89$, Qwen-32B で RewardBench で 0.89$ に達しながら、全てのベンチマークと審査スケール(経験的リスク $\approx 0.097$ から $0.099$ まで)にまたがるリスクを常に満たしている。
ナイーブベースラインと比較して、 \textsc{Scope} は、同じ目標リスク制約の下で MT-Bench と Qwen-7B で最大2.4\times$ の判断を受け入れ、BPE が信頼性と高い LLM に基づく評価を可能にすることを示した。
関連論文リスト
- Optimistic Feasible Search for Closed-Loop Fair Threshold Decision-Making [0.0]
バンディットフィードバックからの1次元しきい値ポリシーのオンライン学習について検討する。
我々は,報酬と制約残差に対する信頼境界を維持する単純なグリッドベース手法であるOptimistic Feasible Search (OFS)を提案する。
論文 参考訳(メタデータ) (2025-12-26T10:44:40Z) - Reinforcement Learning from Probabilistic Forecasts for Safe Decision-Making via Conditional Value-at-Risk Planning [41.52380204321823]
本稿では,ベイズ予測,後方サンプリング強化学習,計画とを結合した統一的枠組みである不確実性認識マルコフ決定プロセス(UAMDP)を提案する。
構造的不確実性と経済のボラティリティを特徴とする2つのドメインの高頻度株式取引と小売在庫管理において,UAMDPを評価した。
論文 参考訳(メタデータ) (2025-10-09T13:46:32Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。
このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。
この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-24T15:39:46Z) - Decision from Suboptimal Classifiers: Excess Risk Pre- and Post-Calibration [52.70324949884702]
バッチ二分決定における近似的後続確率を用いた余剰リスクの定量化を行う。
我々は、再校正のみが後悔のほとんどに対処する体制と、後悔が集団的損失に支配される体制を識別する。
NLP実験では、これらの量によって、より高度なポストトレーニングの期待値が運用コストに値するかどうかが分かる。
論文 参考訳(メタデータ) (2025-03-23T10:52:36Z) - Equal Opportunity of Coverage in Fair Regression [50.76908018786335]
我々は、予測の不確実性の下で公正な機械学習(ML)を研究し、信頼性と信頼性のある意思決定を可能にする。
本研究は,(1)類似した結果の異なる集団に対するカバー率が近いこと,(2)人口全体のカバー率が一定水準にあること,の2つの特性を達成することを目的としたカバーの平等機会(EOC)を提案する。
論文 参考訳(メタデータ) (2023-11-03T21:19:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。