論文の概要: Quantifying Uncertainty in Natural Language Explanations of Large
Language Models
- arxiv url: http://arxiv.org/abs/2311.03533v1
- Date: Mon, 6 Nov 2023 21:14:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 17:54:27.912463
- Title: Quantifying Uncertainty in Natural Language Explanations of Large
Language Models
- Title(参考訳): 大規模言語モデルの自然言語説明における不確かさの定量化
- Authors: Sree Harsha Tanneru, Chirag Agarwal, Himabindu Lakkaraju
- Abstract要約: 大規模言語モデル (LLM) は、高スループット自然言語処理 (NLP) アプリケーションのための強力なツールとして、ますます使われている。
生成された説明の不確かさを定量化するために、$textitVerbalized Uncertainty$と$textitProbing Uncertainty$という2つの新しいメトリクスを提案します。
ベンチマークデータセットの実証分析により、言語化された不確実性は説明の信頼性の信頼できる見積りではないことが判明した。
- 参考スコア(独自算出の注目度): 29.34960984639281
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used as powerful tools for
several high-stakes natural language processing (NLP) applications. Recent
prompting works claim to elicit intermediate reasoning steps and key tokens
that serve as proxy explanations for LLM predictions. However, there is no
certainty whether these explanations are reliable and reflect the LLMs
behavior. In this work, we make one of the first attempts at quantifying the
uncertainty in explanations of LLMs. To this end, we propose two novel metrics
-- $\textit{Verbalized Uncertainty}$ and $\textit{Probing Uncertainty}$ -- to
quantify the uncertainty of generated explanations. While verbalized
uncertainty involves prompting the LLM to express its confidence in its
explanations, probing uncertainty leverages sample and model perturbations as a
means to quantify the uncertainty. Our empirical analysis of benchmark datasets
reveals that verbalized uncertainty is not a reliable estimate of explanation
confidence. Further, we show that the probing uncertainty estimates are
correlated with the faithfulness of an explanation, with lower uncertainty
corresponding to explanations with higher faithfulness. Our study provides
insights into the challenges and opportunities of quantifying uncertainty in
LLM explanations, contributing to the broader discussion of the trustworthiness
of foundation models.
- Abstract(参考訳): 大規模言語モデル (LLM) は、いくつかの高度な自然言語処理 (NLP) アプリケーションのための強力なツールとして、ますます使われている。
近年のプロンプト処理では、中間推論ステップとLLM予測のプロキシ説明として機能するキートークンが提案されている。
しかし、これらの説明が信頼性が高く、LCMの挙動を反映しているかどうかは不明である。
本研究では LLM の説明における不確実性を定量化するための最初の試みである。
この目的のために、生成した説明の不確かさを定量化するために、$\textit{verbalized uncertainty}$と$\textit{probing uncertainty}$という2つの新しいメトリクスを提案する。
言語化された不確実性は、llmにその説明に対する自信を示すよう促すが、不確実性を調査することは、不確実性を定量化する手段としてサンプルとモデルの摂動を利用する。
ベンチマークデータセットの実証分析により,不確実性は説明信頼の信頼できる推定値ではないことが明らかとなった。
さらに, 不確実性推定は説明の忠実性と相関し, 高い忠実性を持つ説明に対応する不確実性が低くなることを示した。
本研究は, LLM説明における不確実性の定量化の課題と機会に関する知見を提供し, 基礎モデルの信頼性に関するより広範な議論に寄与する。
関連論文リスト
- CLUE: Concept-Level Uncertainty Estimation for Large Language Models [49.92690111618016]
大規模言語モデル(LLM)のための概念レベル不確実性推定のための新しいフレームワークを提案する。
LLMを利用して、出力シーケンスを概念レベルの表現に変換し、シーケンスを個別の概念に分解し、各概念の不確かさを個別に測定する。
我々は,文レベルの不確実性と比較して,CLUEがより解釈可能な不確実性推定結果を提供できることを示す実験を行った。
論文 参考訳(メタデータ) (2024-09-04T18:27:12Z) - MAQA: Evaluating Uncertainty Quantification in LLMs Regarding Data Uncertainty [10.154013836043816]
我々は,世界知識,数学的推論,コモンセンス推論タスクからなるMulti-Answer Question Answering データセット MAQA を提案する。
その結果,データ不確実性の下でも,エントロピーと一貫性に基づく手法がモデルの不確実性をよく推定できることが示唆された。
我々は、我々の観察が、現実的な環境での不確実性定量化に関する今後の研究の道を開くと信じている。
論文 参考訳(メタデータ) (2024-08-13T11:17:31Z) - Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities [79.9629927171974]
大規模言語モデル(LLM)の不確実性は、安全性と信頼性が重要であるアプリケーションには不可欠である。
ホワイトボックスとブラックボックス LLM における不確実性評価手法である Kernel Language Entropy (KLE) を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:42:05Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - Examining LLMs' Uncertainty Expression Towards Questions Outside
Parametric Knowledge [35.067234242461545]
大規模言語モデル(LLM)は、適切な応答を生成するのに十分なパラメトリック知識が不足している状況において不確実性を表現する。
本研究の目的は,このような状況下でのLCMの行動の体系的調査であり,誠実さと役に立つことのトレードオフを強調することである。
論文 参考訳(メタデータ) (2023-11-16T10:02:40Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。