Fugu-MT 論文翻訳(概要): Generalised Probabilistic Modelling and Improved Uncertainty Estimation in Comparative LLM-as-a-judge

論文の概要: Generalised Probabilistic Modelling and Improved Uncertainty Estimation in Comparative LLM-as-a-judge

arxiv url: http://arxiv.org/abs/2505.15240v1
Date: Wed, 21 May 2025 08:16:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-22 15:42:59.219793
Title: Generalised Probabilistic Modelling and Improved Uncertainty Estimation in Comparative LLM-as-a-judge
Title（参考訳）: LLM-as-a-judgeにおける一般化確率モデルと不確かさ推定の改善
Authors: Yassir Fathullah, Mark J. F. Gales,
Abstract要約: 既存のProduct-of-Expertsメソッドはより広範なフレームワークの特定のケースであり、多様なモデリングオプションを可能にします。個人比較に対する不確実性評価の改善を提案し、より効率的な選択を可能にし、より少ない評価で強靭な性能を達成する。
参考スコア（独自算出の注目度）: 37.84914870036184
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper explores generalised probabilistic modelling and uncertainty estimation in comparative LLM-as-a-judge frameworks. We show that existing Product-of-Experts methods are specific cases of a broader framework, enabling diverse modelling options. Furthermore, we propose improved uncertainty estimates for individual comparisons, enabling more efficient selection and achieving strong performance with fewer evaluations. We also introduce a method for estimating overall ranking uncertainty. Finally, we demonstrate that combining absolute and comparative scoring improves performance. Experiments show that the specific expert model has a limited impact on final rankings but our proposed uncertainty estimates, especially the probability of reordering, significantly improve the efficiency of systems reducing the number of needed comparisons by ~50%. Furthermore, ranking-level uncertainty metrics can be used to identify low-performing predictions, where the nature of the probabilistic model has a notable impact on the quality of the overall uncertainty.
Abstract（参考訳）: 本稿では,LLM-as-a-judgeフレームワークにおける確率的モデリングと不確実性推定の一般化について検討する。既存のProduct-of-Expertsメソッドはより広範なフレームワークの特定のケースであり、多様なモデリングオプションを可能にします。さらに, 個人比較における不確実性評価を改良し, より効率的な選択を可能にし, より少ない評価で高い性能を実現することを提案する。また、総合的なランキングの不確かさを推定する手法も導入する。最後に,絶対スコアと比較スコアを組み合わせることで,性能が向上することを示す。実験により, 特定の専門家モデルが最終ランキングに限定的な影響を与えることが示されたが, 提案した不確実性推定, 特に再注文の確率は, システムの性能を著しく向上させ, 必要な比較回数を約50%削減した。さらに、ランクレベルの不確実性指標は、確率モデルの性質が全体的な不確実性の品質に顕著な影響を及ぼすような、低いパフォーマンスの予測を識別するために使用することができる。

関連論文リスト

Always Tell Me The Odds: Fine-grained Conditional Probability Estimation [37.950889606305836]
文脈条件付き命題のきめ細かい確率推定のための最先端モデルを提案する。提案手法は,既存の微調整法とプロンプト法を大きなマージンで一貫して上回ることを示す。
論文参考訳（メタデータ） (2025-05-02T21:33:18Z)
Enhancing accuracy of uncertainty estimation in appearance-based gaze tracking with probabilistic evaluation and calibration [13.564919425738163]
外見に基づく視線追跡の不確実性は、信頼性の高い下流アプリケーションを保証するために重要である。現在の不確実性認識アプローチでは、トレーニングデータセット内の分布に従って不確実性を取得する確率論的モデルを採用している。トレーニングされたモデルの不確かさを推定する際のバイアスを軽減するために,確率校正に基づく補正戦略を提案する。
論文参考訳（メタデータ） (2025-01-24T19:33:55Z)
A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)のための最初の形式的確率的評価フレームワークを紹介する。すなわち,モデルの出力分布に関する確率保証の高い新しい指標を提案する。私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文参考訳（メタデータ） (2024-10-04T15:44:23Z)
On Uncertainty Calibration and Selective Generation in Probabilistic Neural Summarization: A Benchmark Study [14.041071717005362]
要約のための最新のディープモデルは、優れたベンチマーク性能を得るが、誤校正された予測の不確実性を生成する傾向にある。これは、低品質の予測に高い信頼性を割り当て、現実世界のアプリケーションにおける信頼性と信頼性を損なうことを意味する。確率的深層学習法は誤校正問題の一般的な解法であるが, 複雑な自己回帰的要約タスクにおける相対的有効性はよく理解されていない。
論文参考訳（メタデータ） (2023-04-17T23:06:28Z)
Uncertainty-Driven Action Quality Assessment [11.958132175629368]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文参考訳（メタデータ） (2022-07-29T07:21:15Z)
DEUP: Direct Epistemic Uncertainty Prediction [56.087230230128185]
認識の不確実性は、学習者の知識の欠如によるサンプル外の予測エラーの一部である。一般化誤差の予測を学習し, aleatoric uncertaintyの推定を減算することで, 認識的不確かさを直接推定する原理的アプローチを提案する。
論文参考訳（メタデータ） (2021-02-16T23:50:35Z)
Characterizing Fairness Over the Set of Good Models Under Selective Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文参考訳（メタデータ） (2021-01-02T02:11:37Z)
Uncertainty-Aware Few-Shot Image Classification [118.72423376789062]
ラベル付き限られたデータから新しいカテゴリを認識できる画像分類はほとんどない。画像分類のための不確実性を考慮したFew-Shotフレームワークを提案する。
論文参考訳（メタデータ） (2020-10-09T12:26:27Z)
Efficient Ensemble Model Generation for Uncertainty Estimation with Bayesian Approximation in Segmentation [74.06904875527556]
アンサンブルセグメンテーションモデルを構築するための汎用的で効率的なセグメンテーションフレームワークを提案する。提案手法では,層選択法を用いて効率よくアンサンブルモデルを生成することができる。また,新たな画素単位の不確実性損失を考案し,予測性能を向上する。
論文参考訳（メタデータ） (2020-05-21T16:08:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。