論文の概要: Uncertainty Estimation and Quantification for LLMs: A Simple Supervised Approach
- arxiv url: http://arxiv.org/abs/2404.15993v1
- Date: Wed, 24 Apr 2024 17:10:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 18:41:38.042301
- Title: Uncertainty Estimation and Quantification for LLMs: A Simple Supervised Approach
- Title(参考訳): LLMの不確かさ推定と定量化: 簡単な監視手法
- Authors: Linyu Liu, Yu Pan, Xiaocheng Li, Guanting Chen,
- Abstract要約: 大規模言語モデル(LLM)は多くのタスクに対して高い能力を持つが、信頼できないあるいは不正確な出力を生成することがある。
本稿では,LLMの不確実性推定と校正の問題について検討する。
実際、我々の手法は実装が容易であり、異なるレベルのモデルの透明性に適応できる。
- 参考スコア(独自算出の注目度): 6.209293868095268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are highly capable of many tasks but they can sometimes generate unreliable or inaccurate outputs. To tackle this issue, this paper studies the problem of uncertainty estimation and calibration for LLMs. We begin by formulating the uncertainty estimation problem for LLMs and then propose a supervised approach that takes advantage of the labeled datasets and estimates the uncertainty of the LLMs' responses. Based on the formulation, we illustrate the difference between the uncertainty estimation for LLMs and that for standard ML models and explain why the hidden activations of the LLMs contain uncertainty information. Our designed approach effectively demonstrates the benefits of utilizing hidden activations for enhanced uncertainty estimation across various tasks and shows robust transferability in out-of-distribution settings. Moreover, we distinguish the uncertainty estimation task from the uncertainty calibration task and show that a better uncertainty estimation mode leads to a better calibration performance. In practice, our method is easy to implement and is adaptable to different levels of model transparency including black box, grey box, and white box, each demonstrating strong performance based on the accessibility of the LLM's internal mechanisms.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くのタスクに対して高い能力を持つが、信頼できないあるいは不正確な出力を生成することがある。
この問題に対処するために,LLMの不確実性推定と校正の問題について検討する。
まず LLM の不確実性推定問題を定式化し,ラベル付きデータセットを利用して LLM の応答の不確かさを推定する教師付きアプローチを提案する。
定式化に基づいて,LLMの不確実性推定と標準MLモデルの不確実性推定の違いを説明し,LLMの隠れアクティベーションが不確実性情報を含んでいる理由を説明する。
提案手法は, 各種タスク間の不確実性評価に隠れアクティベーションを利用する利点を効果的に示し, アウト・オブ・ディストリビューション・セッティングにおけるロバストな転送可能性を示す。
さらに,不確実性推定タスクと不確実性判定タスクを区別し,不確実性推定モードが良好なキャリブレーション性能をもたらすことを示す。
実際には,本手法は実装が容易で,ブラックボックス,グレイボックス,ホワイトボックスなど,さまざまなモデルの透過性に適応し,LCMの内部機構のアクセシビリティに基づいた高い性能を示す。
関連論文リスト
- Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - Examining LLMs' Uncertainty Expression Towards Questions Outside
Parametric Knowledge [35.067234242461545]
大規模言語モデル(LLM)は、適切な応答を生成するのに十分なパラメトリック知識が不足している状況において不確実性を表現する。
本研究の目的は,このような状況下でのLCMの行動の体系的調査であり,誠実さと役に立つことのトレードオフを強調することである。
論文 参考訳(メタデータ) (2023-11-16T10:02:40Z) - Decomposing Uncertainty for Large Language Models through Input
Clarification Ensembling [74.00331519233026]
大規模言語モデル(LLM)のための不確実性分解フレームワークを提案する。
我々のフレームワークは入力の一連の明確化を生成し、それらを固定LLMに入力し、対応する予測をアンサンブルする。
実験により,提案手法は様々なタスクに対して正確かつ確実な不確実性定量化を提供することを示した。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - A Survey of Confidence Estimation and Calibration in Large Language Models [86.692994151323]
大規模言語モデル(LLM)は、様々な領域において幅広いタスクにまたがる顕著な機能を示している。
印象的なパフォーマンスにもかかわらず、彼らは世代内の事実上の誤りのために信頼できない。
信頼度を評価し、異なるタスクで調整することで、リスクを軽減し、LLMがより良い世代を創出できるようになります。
論文 参考訳(メタデータ) (2023-11-14T16:43:29Z) - Quantifying Uncertainty in Natural Language Explanations of Large
Language Models [29.34960984639281]
大規模言語モデル (LLM) は、高スループット自然言語処理 (NLP) アプリケーションのための強力なツールとして、ますます使われている。
生成された説明の不確かさを定量化するために、$textitVerbalized Uncertainty$と$textitProbing Uncertainty$という2つの新しいメトリクスを提案します。
ベンチマークデータセットの実証分析により、言語化された不確実性は説明の信頼性の信頼できる見積りではないことが判明した。
論文 参考訳(メタデータ) (2023-11-06T21:14:40Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Look Before You Leap: An Exploratory Study of Uncertainty Measurement
for Large Language Models [16.524794442035265]
本研究では,不確実性のレンズを用いたLarge Language Models(LLM)のリスク評価について検討する。
本研究は,LLMの不確かさ・非実効性予測に対する不確実性推定の有効性を検証した。
我々の研究から得た洞察は、信頼性の高いLCMの設計と開発に光を当てた。
論文 参考訳(メタデータ) (2023-07-16T08:28:04Z) - Uncertainty as a Form of Transparency: Measuring, Communicating, and
Using Uncertainty [66.17147341354577]
我々は,モデル予測に関連する不確実性を推定し,伝達することにより,相補的な透明性の形式を考えることについて議論する。
モデルの不公平性を緩和し、意思決定を強化し、信頼できるシステムを構築するために不確実性がどのように使われるかを説明する。
この研究は、機械学習、可視化/HCI、デザイン、意思決定、公平性にまたがる文学から引き出された学際的レビューを構成する。
論文 参考訳(メタデータ) (2020-11-15T17:26:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。