Fugu-MT 論文翻訳(概要): EviRank: Evidence-Based Confidence Estimation for LLM-Based Ranking

論文の概要: EviRank: Evidence-Based Confidence Estimation for LLM-Based Ranking

arxiv url: http://arxiv.org/abs/2606.04727v1
Date: Wed, 03 Jun 2026 11:11:30 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-04 20:44:18.697634
Title: EviRank: Evidence-Based Confidence Estimation for LLM-Based Ranking
Title（参考訳）: EviRank: LLMに基づくランク付けのための証拠に基づく信頼度推定
Authors: Meng Yan, Cai Xv, Xujing Wang, Ziyu Guan, Wei Zhao,
Abstract要約: 大規模言語モデルは推奨を約束するが、ドメインカバレッジと本質性に制限があるため、信頼性の懸念が高まる。既存の不確実性定量化手法は,(1) 質問応答に対する大域的信頼度スコアがランクリストにおいてどの位置が信頼できないかを明らかにするのに失敗し,(2) モデル内部から抽出されたきめ細かい信頼度が全位置にわたって均一に低い値を示し,信頼できない予測をフィルタリングすることが不可能である,という2つの基本的な課題を継続する。
参考スコア（独自算出の注目度）: 16.11514087357089
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models show promise for recommendation, but they raise reliability concerns due to limited domain coverage and inherent stochasticity. Existing uncertainty quantification methods persist two fundamental challenges: (1) the global confidence score designed for question answering fails to reveal which positions are unreliable in ranking list; (2) fine-grained confidence extracted from model internals exhibits uniformly low values across all positions, making it impossible to filter unreliable predictions. To tackle the challenges, we propose an evidence-based confidence estimation for LLM-based ranking (EviRank). We extract three complementary evidences from a single forward pass and aggregate them via reliable opinion aggregation. Furthermore, we recognize that ranking positions are inherently unequal, and introduce a position-aware calibration. Lastly, the calibrated confidence guides ranking optimization. Experiments on three datasets demonstrate that our method achieves state-of-the-art performance on both recommendation and uncertainty quantification.
Abstract（参考訳）: 大規模言語モデルは推奨を約束するが、ドメインカバレッジの制限と固有の確率性のために信頼性の懸念が高まる。既存の不確実性定量化手法は,(1)質問応答のために設計された大域的信頼度スコアが,どの位置が信頼できないのかをランクリストに示さないこと,(2)モデル内部から抽出されたきめ細かい信頼度が全位置にわたって均一に低い値を示し,信頼できない予測をフィルタリングすることができないこと,の2つの基本的な課題を継続する。そこで本研究では,LCMに基づくランキング(EviRank)のエビデンスに基づく信頼度推定手法を提案する。一つの前方通過から3つの補完的証拠を抽出し、信頼できる意見集計を通じてそれらを集約する。さらに、ランク位置が本質的に不平等であることを認識し、位置認識校正を導入する。最後に、キャリブレーションされた信頼度はランキング最適化を導く。 3つのデータセットに対する実験により,提案手法は推薦と不確実な定量化の両方において最先端の性能を達成することを示した。

関連論文リスト

Enhancing Confidence Estimation in Telco LLMs via Twin-Pass CoT-Ensembling [1.8332654441845688]
大規模言語モデル(LLM)は、複雑な通信タスクにますます適用されている。 LLMが生み出す信頼スコアは、しばしばバイアスを受け、信頼できないものであり、しばしば体系的な過信を示す。我々は,信頼度推定を改善するための新しいCoT(Twin-Pass Chain of Thought)-Ensembling法を提案する。
論文参考訳（メタデータ） (2026-04-14T20:03:08Z)
BAS: A Decision-Theoretic Approach to Evaluating Large Language Model Confidence [22.382291859991472]
本稿では,大言語モデルが抑止力を考慮した意思決定を支援するかを評価するための決定論的指標である行動アライメントスコア(BAS)を紹介する。 BASは、明示的な回答または持続可能なユーティリティモデルから派生し、リスク閾値の連続体にわたって実現されたユーティリティを集約する。理論的には、真理信頼度推定は期待されるBASユーティリティを一意に最大化し、キャリブレーションと決定-最適行動のリンクを示す。
論文参考訳（メタデータ） (2026-04-03T17:44:32Z)
Mind the Generation Process: Fine-Grained Confidence Estimation During LLM Generation [63.49409574310576]
大規模言語モデル(LLM)は自信過剰を示し、信頼度の高いスコアを誤った予測に割り当てる。本研究では,テキスト生成中に高精度できめ細かな信頼スコアを提供する信頼度推定手法であるFineCEを紹介する。論文で使用されたコードとすべてのベースラインはGitHubで公開されている。
論文参考訳（メタデータ） (2025-08-16T13:29:35Z)
Overconfidence in LLM-as-a-Judge: Diagnosis and Confidence-Driven Solution [20.607071807794195]
大規模言語モデル(LLM)は自動化された判断として広く使われており、実際的な価値は正確さと信頼性の高いリスク認識の判断の両方に依存する。既存のアプローチは主に正確さに焦点を合わせ、よく校正された信頼の必要性を見越す。我々は、精度中心の評価から信頼性駆動型、リスク対応型LCM-as-a-Judgeシステムへの移行を提唱する。
論文参考訳（メタデータ） (2025-08-08T11:11:22Z)
SteerConf: Steering LLMs for Confidence Elicitation [11.872504642312705]
大規模言語モデル(LLM)は、様々な領域で素晴らしいパフォーマンスを示すが、しばしば過剰な自信に悩まされる。本稿では,LCMの信頼性スコアを体系的に評価し,キャリブレーションと信頼性を向上させる新しいフレームワークであるSteerConfを提案する。
論文参考訳（メタデータ） (2025-03-04T18:40:49Z)
Language Models Prefer What They Know: Relative Confidence Estimation via Confidence Preferences [62.52739672949452]
言語モデル(LM)は、ユーザーがアウトプットの誤りを検知し、必要であれば人間の専門家に延期するのに役立つ、信頼性の高い信頼推定を提供する必要がある。本稿では,相対的信頼度推定法を提案する。そこでは,相互に質問をマッチングし,モデルに信頼度を相対的に判断するよう求める。各質問を、他の質問に対する「プレイヤー」として扱い、モデルの選好を一致結果として扱うことで、モデルの信頼性選好を信頼スコアに変換するために、Elo評価やBradley-Terryのようなランクアグリゲーション手法を使うことができる。
論文参考訳（メタデータ） (2025-02-03T07:43:27Z)
Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文参考訳（メタデータ） (2024-11-20T14:15:18Z)
Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文参考訳（メタデータ） (2024-03-15T02:38:26Z)
Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文参考訳（メタデータ） (2023-10-09T11:44:50Z)
Reliability-Aware Prediction via Uncertainty Learning for Person Image Retrieval [51.83967175585896]
UALは、データ不確実性とモデル不確実性を同時に考慮し、信頼性に配慮した予測を提供することを目的としている。データ不確実性はサンプル固有のノイズを捕捉する」一方、モデル不確実性はサンプルの予測に対するモデルの信頼を表現している。
論文参考訳（メタデータ） (2022-10-24T17:53:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。