論文の概要: Prompt-Dependent Ranking of Large Language Models with Uncertainty Quantification
- arxiv url: http://arxiv.org/abs/2603.03336v1
- Date: Wed, 11 Feb 2026 18:16:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.166465
- Title: Prompt-Dependent Ranking of Large Language Models with Uncertainty Quantification
- Title(参考訳): 不確実な量子化を伴う大規模言語モデルのプロンプト依存ランク付け
- Authors: Angel Rodrigo Avelar Menendez, Yufeng Liu, Xiaowu Dai,
- Abstract要約: 我々は、ペアワイズな人選好の下で、プロンプト依存のランキング推定について検討する。
我々は統計的に妥当な不確実性保証を有する意思決定安全ランキングの枠組みを開発する。
- 参考スコア(独自算出の注目度): 9.99813918008511
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rankings derived from pairwise comparisons are central to many economic and computational systems. In the context of large language models (LLMs), rankings are typically constructed from human preference data and presented as leaderboards that guide deployment decisions. However, existing approaches rely on point estimates, implicitly treating rankings as fixed objects despite substantial estimation noise and context-dependent performance variation. Acting on such rankings can lead to misallocation and welfare loss when apparent differences are not statistically meaningful. We study prompt-dependent ranking inference under pairwise human preferences and develop a framework for decision-safe rankings with statistically valid uncertainty guarantees. We model preferences using a contextual Bradley-Terry-Luce model in which the latent utility of each model depends on the input prompt. Rather than targeting point estimates of utilities, we directly conduct inference on induced rankings, constructing confidence sets based on simultaneous confidence intervals for pairwise utility differences. This approach yields statistically valid marginal and simultaneous confidence sets for prompt-specific ranks. Our framework connects recent advances in rank inference to contextual preference learning and provides tools for robust ranking-based decision-making. Empirically, using large-scale human preference data from LLM evaluations, we show that rankings vary substantially across prompt characteristics and that many apparent rank differences are not statistically distinguishable. We further demonstrate how uncertainty-aware rankings identify dominance only when supported by the data and otherwise return partial orders.
- Abstract(参考訳): ペア比較から導かれるランクは、多くの経済・計算システムの中心である。
大規模言語モデル(LLM)の文脈では、ランキングは通常、人間の好みのデータから構築され、デプロイメント決定を導くリーダーボードとして提示される。
しかし、既存のアプローチでは、かなりの推定ノイズと文脈に依存したパフォーマンスの変動にもかかわらず、ランク付けを固定オブジェクトとして暗黙的に扱い、点推定に依存している。
このようなランク付けを行うと、明らかな相違が統計的に意味をなさない場合、転職や福祉の損失につながる可能性がある。
本研究では, 統計的に妥当な不確実性保証を有する意思決定安全ランキングの枠組みを, 対人選好下での即時順位推定について検討した。
我々は、各モデルの潜在ユーティリティが入力プロンプトに依存する文脈的Bradley-Terry-Luceモデルを用いて、好みをモデル化する。
ユーティリティのポイント推定を対象とするのではなく,相互に有効性の違いを推定するために,同時信頼区間に基づく信頼セットの構築を行う。
このアプローチは、プロンプト固有のランクに対する統計的に有効な限界と同時信頼セットを与える。
我々のフレームワークは、最近のランク推論の進歩と文脈的嗜好学習を結びつけ、ロバストなランキングベースの意思決定のためのツールを提供する。
実験では, LLM評価から得られた大規模人選データを用いて, 目覚しい特徴によってランクが著しく異なること, 目覚しいランクの違いが統計的に区別できないことが確認された。
さらに、不確実性を考慮したランキングが、データによって支持された場合にのみ支配を識別し、それ以外は部分的な順序を返すことを実証する。
関連論文リスト
- Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - A Principled Approach to Randomized Selection under Uncertainty: Applications to Peer Review and Grant Funding [61.86327960322782]
本稿では,各項目の品質の間隔推定に基づくランダム化意思決定の枠組みを提案する。
最適化に基づく最適化手法であるMERITを導入する。
MERITが既存のアプローチで保証されていない望ましい公理特性を満たすことを証明している。
論文 参考訳(メタデータ) (2025-06-23T19:59:30Z) - Learning when to rank: Estimation of partial rankings from sparse, noisy comparisons [0.0]
偏位を学習するための原理的非パラメトリックベイズ法(階層付きランク)を開発する。
そこで本研究では,実データと合成データを用いて,本手法の性能について検討する。
論文 参考訳(メタデータ) (2025-01-05T11:04:30Z) - Confidence Diagram of Nonparametric Ranking for Uncertainty Assessment in Large Language Models Evaluation [20.022623972491733]
大きな言語モデル(LLM)のランク付けは、$N$のポリシーに基づいてアライメントを改善する効果的なツールであることが証明されている。
本稿では,言語モデルのランキングの中から仮説テストのための新しい推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-07T02:34:30Z) - Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。
我々はStratPPI(Stratified Prediction-Powered Inference)という手法を提案する。
単純なデータ階層化戦略を用いることで,基礎的なPPI推定精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-06-06T17:37:39Z) - Stability and Multigroup Fairness in Ranking with Uncertain Predictions [61.76378420347408]
我々の研究はランキング関数について考察している。分類タスクの個々の予測からランキング上の分布へのマップ。
ランキング関数の2つの側面、すなわち予測における摂動に対する安定性と、個人とサブグループの両方に対する公正性に焦点を当てる。
我々の研究は、不確実性に敏感なランキングが、グループと個人レベルの公正性の保証とを自然に補間していることを示している。
論文 参考訳(メタデータ) (2024-02-14T17:17:05Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。