論文の概要: Uncertainty Estimation and Quantification for LLMs: A Simple Supervised Approach
- arxiv url: http://arxiv.org/abs/2404.15993v1
- Date: Wed, 24 Apr 2024 17:10:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 18:41:38.042301
- Title: Uncertainty Estimation and Quantification for LLMs: A Simple Supervised Approach
- Title(参考訳): LLMの不確かさ推定と定量化: 簡単な監視手法
- Authors: Linyu Liu, Yu Pan, Xiaocheng Li, Guanting Chen,
- Abstract要約: 大規模言語モデル(LLM)は多くのタスクに対して高い能力を持つが、信頼できないあるいは不正確な出力を生成することがある。
本稿では,LLMの不確実性推定と校正の問題について検討する。
実際、我々の手法は実装が容易であり、異なるレベルのモデルの透明性に適応できる。
- 参考スコア(独自算出の注目度): 6.209293868095268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are highly capable of many tasks but they can sometimes generate unreliable or inaccurate outputs. To tackle this issue, this paper studies the problem of uncertainty estimation and calibration for LLMs. We begin by formulating the uncertainty estimation problem for LLMs and then propose a supervised approach that takes advantage of the labeled datasets and estimates the uncertainty of the LLMs' responses. Based on the formulation, we illustrate the difference between the uncertainty estimation for LLMs and that for standard ML models and explain why the hidden activations of the LLMs contain uncertainty information. Our designed approach effectively demonstrates the benefits of utilizing hidden activations for enhanced uncertainty estimation across various tasks and shows robust transferability in out-of-distribution settings. Moreover, we distinguish the uncertainty estimation task from the uncertainty calibration task and show that a better uncertainty estimation mode leads to a better calibration performance. In practice, our method is easy to implement and is adaptable to different levels of model transparency including black box, grey box, and white box, each demonstrating strong performance based on the accessibility of the LLM's internal mechanisms.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くのタスクに対して高い能力を持つが、信頼できないあるいは不正確な出力を生成することがある。
この問題に対処するために,LLMの不確実性推定と校正の問題について検討する。
まず LLM の不確実性推定問題を定式化し,ラベル付きデータセットを利用して LLM の応答の不確かさを推定する教師付きアプローチを提案する。
定式化に基づいて,LLMの不確実性推定と標準MLモデルの不確実性推定の違いを説明し,LLMの隠れアクティベーションが不確実性情報を含んでいる理由を説明する。
提案手法は, 各種タスク間の不確実性評価に隠れアクティベーションを利用する利点を効果的に示し, アウト・オブ・ディストリビューション・セッティングにおけるロバストな転送可能性を示す。
さらに,不確実性推定タスクと不確実性判定タスクを区別し,不確実性推定モードが良好なキャリブレーション性能をもたらすことを示す。
実際には,本手法は実装が容易で,ブラックボックス,グレイボックス,ホワイトボックスなど,さまざまなモデルの透過性に適応し,LCMの内部機構のアクセシビリティに基づいた高い性能を示す。
関連論文リスト
- A Survey of Uncertainty Estimation in LLMs: Theory Meets Practice [7.687545159131024]
我々は、不確実性と信頼の定義を明確にし、それらの区別とモデル予測への含意を明らかにする。
本稿では,アプローチから導いた不確実性推定手法を分類する。
また,分布外検出,データアノテーション,質問の明確化など,多様なアプリケーションに不確実性をもたらす技術についても検討する。
論文 参考訳(メタデータ) (2024-10-20T07:55:44Z) - Black-box Uncertainty Quantification Method for LLM-as-a-Judge [13.45579129351493]
LLM-as-a-Judge評価の信頼性を高めるために設計された不確実性を定量化する新しい手法を提案する。
生成された評価と可能な評価の関係を分析して不確実性を定量化する。
これらの関係を相互に評価し、トークン確率に基づく混乱行列を構築することにより、高いあるいは低い不確実性のラベルを導出する。
論文 参考訳(メタデータ) (2024-10-15T13:29:22Z) - CLUE: Concept-Level Uncertainty Estimation for Large Language Models [49.92690111618016]
大規模言語モデル(LLM)のための概念レベル不確実性推定のための新しいフレームワークを提案する。
LLMを利用して、出力シーケンスを概念レベルの表現に変換し、シーケンスを個別の概念に分解し、各概念の不確かさを個別に測定する。
我々は,文レベルの不確実性と比較して,CLUEがより解釈可能な不確実性推定結果を提供できることを示す実験を行った。
論文 参考訳(メタデータ) (2024-09-04T18:27:12Z) - MAQA: Evaluating Uncertainty Quantification in LLMs Regarding Data Uncertainty [10.154013836043816]
我々は,世界知識,数学的推論,コモンセンス推論タスクからなるMulti-Answer Question Answering データセット MAQA を提案する。
その結果,データ不確実性の下でも,エントロピーと一貫性に基づく手法がモデルの不確実性をよく推定できることが示唆された。
我々は、我々の観察が、現実的な環境での不確実性定量化に関する今後の研究の道を開くと信じている。
論文 参考訳(メタデータ) (2024-08-13T11:17:31Z) - Question Rephrasing for Quantifying Uncertainty in Large Language Models: Applications in Molecular Chemistry Tasks [4.167519875804914]
大規模言語モデル(LLM)の入力不確実性を評価するための新しい質問文記述手法を提案する。
この手法はLLMの出力不確実性を測定するサンプリング手法と統合され、より包括的な不確実性評価を提供する。
論文 参考訳(メタデータ) (2024-08-07T12:38:23Z) - ConU: Conformal Uncertainty in Large Language Models with Correctness Coverage Guarantees [68.33498595506941]
自己整合性理論に基づく新しい不確実性尺度を導入する。
次に,CPアルゴリズムに正当性に整合した不確かさ条件を組み込むことにより,適合性不確かさの基準を策定する。
実証的な評価は、我々の不確実性測定が過去の最先端手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-29T17:33:07Z) - A Structured Review of Literature on Uncertainty in Machine Learning & Deep Learning [0.8667724053232616]
我々は、リスクに敏感なアプリケーション、すなわち不確実性を理解し、定量化するアプリケーションにおいて、機械学習を適応するための重要な関心事に焦点を当てる。
本稿では,このトピックを構造化した方法でアプローチし,不確実性がMLプロセスに封入されているというさまざまな側面の文献をレビューする。
このレビューの主な貢献は、不確実性議論の範囲を広げ、Deep Learningにおける不確実性定量化手法のレビューを更新することである。
論文 参考訳(メタデータ) (2024-06-01T07:17:38Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - DEUP: Direct Epistemic Uncertainty Prediction [56.087230230128185]
認識の不確実性は、学習者の知識の欠如によるサンプル外の予測エラーの一部である。
一般化誤差の予測を学習し, aleatoric uncertaintyの推定を減算することで, 認識的不確かさを直接推定する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T23:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。