Fugu-MT 論文翻訳(概要): Uncertainty Quantification and Confidence Calibration in Large Language Models: A Survey

論文の概要: Uncertainty Quantification and Confidence Calibration in Large Language Models: A Survey

arxiv url: http://arxiv.org/abs/2503.15850v1
Date: Thu, 20 Mar 2025 05:04:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-21 15:30:52.264215
Title: Uncertainty Quantification and Confidence Calibration in Large Language Models: A Survey
Title（参考訳）: 大規模言語モデルにおける不確かさの定量化と信頼度校正:調査
Authors: Xiaoou Liu, Tiejin Chen, Longchao Da, Chacha Chen, Zhen Lin, Hua Wei,
Abstract要約: LLM(Large Language Models)は、医療、法律、交通といった高度な分野において、テキスト生成、推論、意思決定に優れる。不確実性定量化(UQ)は、アウトプットの信頼度を推定することで信頼性を高め、リスク軽減と選択的予測を可能にする。計算効率と不確実性次元に基づいてUQ手法を分類する新しい分類法を提案する。
参考スコア（独自算出の注目度）: 11.737403011836532
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) excel in text generation, reasoning, and decision-making, enabling their adoption in high-stakes domains such as healthcare, law, and transportation. However, their reliability is a major concern, as they often produce plausible but incorrect responses. Uncertainty quantification (UQ) enhances trustworthiness by estimating confidence in outputs, enabling risk mitigation and selective prediction. However, traditional UQ methods struggle with LLMs due to computational constraints and decoding inconsistencies. Moreover, LLMs introduce unique uncertainty sources, such as input ambiguity, reasoning path divergence, and decoding stochasticity, that extend beyond classical aleatoric and epistemic uncertainty. To address this, we introduce a new taxonomy that categorizes UQ methods based on computational efficiency and uncertainty dimensions (input, reasoning, parameter, and prediction uncertainty). We evaluate existing techniques, assess their real-world applicability, and identify open challenges, emphasizing the need for scalable, interpretable, and robust UQ approaches to enhance LLM reliability.
Abstract（参考訳）: 大規模言語モデル(LLM)は、テキスト生成、推論、意思決定に優れており、医療、法律、交通といった高度な領域で採用することができる。しかし、その信頼性は、しばしば妥当だが誤った反応を生じるため、大きな懸念事項である。不確実性定量化(UQ)は、アウトプットの信頼度を推定することで信頼性を高め、リスク軽減と選択的予測を可能にする。しかし、従来のUQ手法は計算上の制約やデコードの不整合のためにLLMと競合する。さらに、LSMは、入力あいまいさ、推論経路のばらつき、復号確率性など、古典的失語症やてんかん性不確実性を超えた独自の不確実性源を導入している。そこで本研究では,計算効率と不確実性次元(インプット,推論,パラメータ,予測不確実性)に基づいてUQ手法を分類する新たな分類法を提案する。 LLMの信頼性を高めるために、既存の技術を評価し、実世界の応用性を評価し、オープンな課題を特定し、スケーラブルで解釈可能で堅牢なUQアプローチの必要性を強調した。

関連論文リスト

Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [48.15636223774418]
大きな言語モデル(LLM)は、不一致の自己認識のためにしばしば幻覚する。既存のアプローチは、不確実性推定やクエリの拒否を通じて幻覚を緩和する。高速かつ低速な推論システムを統合するための明示的知識境界モデリングフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-04T03:16:02Z)
Assessing Correctness in LLM-Based Code Generation via Uncertainty Estimation [0.0]
LLM生成符号の正確性のプロキシとして不確実性推定を検討する。自然言語生成からコード生成領域への2つの最先端技術を適用する。これらの手法を用いて計算した不確実性と正確性との間には強い相関関係があることが示唆された。
論文参考訳（メタデータ） (2025-02-17T10:03:01Z)
Label-Confidence-Aware Uncertainty Estimation in Natural Language Generation [8.635811152610604]
不確実性定量化(UQ)は、AIシステムの安全性と堅牢性を保証するために不可欠である。サンプルとラベルソース間の分岐に基づくラベル信頼度(LCA)の不確実性評価を提案する。
論文参考訳（メタデータ） (2024-12-10T07:35:23Z)
Enhancing Trust in Large Language Models with Uncertainty-Aware Fine-Tuning [10.457661605916435]
大規模言語モデル(LLM)は、その印象的な推論と質問応答能力によって自然言語処理の分野に革命をもたらした。 LLMは時に、幻覚として知られる、信頼できるが誤った情報を生成する傾向にある。本稿では,決定論の原理に基づく不確実性を考慮した因果的言語モデリング損失関数を提案する。
論文参考訳（メタデータ） (2024-12-03T23:14:47Z)
ConU: Conformal Uncertainty in Large Language Models with Correctness Coverage Guarantees [68.33498595506941]
自己整合性理論に基づく新しい不確実性尺度を導入する。次に,CPアルゴリズムに正当性に整合した不確かさ条件を組み込むことにより,適合性不確かさの基準を策定する。実証的な評価は、我々の不確実性測定が過去の最先端手法よりも優れていることを示している。
論文参考訳（メタデータ） (2024-06-29T17:33:07Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities [79.9629927171974]
大規模言語モデル(LLM)の不確実性は、安全性と信頼性が重要であるアプリケーションには不可欠である。ホワイトボックスとブラックボックス LLM における不確実性評価手法である Kernel Language Entropy (KLE) を提案する。
論文参考訳（メタデータ） (2024-05-30T12:42:05Z)
SPUQ: Perturbation-Based Uncertainty Quantification for Large Language Models [9.817185255633758]
大規模言語モデル(LLM)がますます普及し、顕著なテキスト生成機能を提供している。プレッシャーの課題は、自信を持って間違った予測をする傾向にある。本稿では,浮腫とてんかんの両不確実性に対処するために,新しいUQ法を提案する。その結果,モデルキャリブレーションは大幅に改善し,予測誤差(ECE)は平均50%減少した。
論文参考訳（メタデータ） (2024-03-04T21:55:22Z)
Uncertainty Quantification for Forward and Inverse Problems of PDEs via Latent Global Evolution [110.99891169486366]
本稿では,効率的かつ高精度な不確実性定量化を深層学習に基づく代理モデルに統合する手法を提案する。本手法は,フォワード問題と逆問題の両方に対して,堅牢かつ効率的な不確実性定量化機能を備えたディープラーニングに基づく代理モデルを提案する。提案手法は, 長期予測を含むシナリオに適合し, 拡張された自己回帰ロールアウトに対する不確かさの伝播に優れる。
論文参考訳（メタデータ） (2024-02-13T11:22:59Z)
Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。本稿では,LLMのための不確実性分解フレームワークについて述べる。提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文参考訳（メタデータ） (2023-11-15T05:58:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。