論文の概要: Quantifying Uncertainty in Natural Language Explanations of Large
Language Models
- arxiv url: http://arxiv.org/abs/2311.03533v1
- Date: Mon, 6 Nov 2023 21:14:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 17:54:27.912463
- Title: Quantifying Uncertainty in Natural Language Explanations of Large
Language Models
- Title(参考訳): 大規模言語モデルの自然言語説明における不確かさの定量化
- Authors: Sree Harsha Tanneru, Chirag Agarwal, Himabindu Lakkaraju
- Abstract要約: 大規模言語モデル (LLM) は、高スループット自然言語処理 (NLP) アプリケーションのための強力なツールとして、ますます使われている。
生成された説明の不確かさを定量化するために、$textitVerbalized Uncertainty$と$textitProbing Uncertainty$という2つの新しいメトリクスを提案します。
ベンチマークデータセットの実証分析により、言語化された不確実性は説明の信頼性の信頼できる見積りではないことが判明した。
- 参考スコア(独自算出の注目度): 29.34960984639281
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used as powerful tools for
several high-stakes natural language processing (NLP) applications. Recent
prompting works claim to elicit intermediate reasoning steps and key tokens
that serve as proxy explanations for LLM predictions. However, there is no
certainty whether these explanations are reliable and reflect the LLMs
behavior. In this work, we make one of the first attempts at quantifying the
uncertainty in explanations of LLMs. To this end, we propose two novel metrics
-- $\textit{Verbalized Uncertainty}$ and $\textit{Probing Uncertainty}$ -- to
quantify the uncertainty of generated explanations. While verbalized
uncertainty involves prompting the LLM to express its confidence in its
explanations, probing uncertainty leverages sample and model perturbations as a
means to quantify the uncertainty. Our empirical analysis of benchmark datasets
reveals that verbalized uncertainty is not a reliable estimate of explanation
confidence. Further, we show that the probing uncertainty estimates are
correlated with the faithfulness of an explanation, with lower uncertainty
corresponding to explanations with higher faithfulness. Our study provides
insights into the challenges and opportunities of quantifying uncertainty in
LLM explanations, contributing to the broader discussion of the trustworthiness
of foundation models.
- Abstract(参考訳): 大規模言語モデル (LLM) は、いくつかの高度な自然言語処理 (NLP) アプリケーションのための強力なツールとして、ますます使われている。
近年のプロンプト処理では、中間推論ステップとLLM予測のプロキシ説明として機能するキートークンが提案されている。
しかし、これらの説明が信頼性が高く、LCMの挙動を反映しているかどうかは不明である。
本研究では LLM の説明における不確実性を定量化するための最初の試みである。
この目的のために、生成した説明の不確かさを定量化するために、$\textit{verbalized uncertainty}$と$\textit{probing uncertainty}$という2つの新しいメトリクスを提案する。
言語化された不確実性は、llmにその説明に対する自信を示すよう促すが、不確実性を調査することは、不確実性を定量化する手段としてサンプルとモデルの摂動を利用する。
ベンチマークデータセットの実証分析により,不確実性は説明信頼の信頼できる推定値ではないことが明らかとなった。
さらに, 不確実性推定は説明の忠実性と相関し, 高い忠実性を持つ説明に対応する不確実性が低くなることを示した。
本研究は, LLM説明における不確実性の定量化の課題と機会に関する知見を提供し, 基礎モデルの信頼性に関するより広範な議論に寄与する。
関連論文リスト
- Uncertainty Estimation and Quantification for LLMs: A Simple Supervised Approach [6.209293868095268]
大規模言語モデル(LLM)は多くのタスクに対して高い能力を持つが、信頼できないあるいは不正確な出力を生成することがある。
本稿では,LLMの不確実性推定と校正の問題について検討する。
実際、我々の手法は実装が容易であり、異なるレベルのモデルの透明性に適応できる。
論文 参考訳(メタデータ) (2024-04-24T17:10:35Z) - Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - Fact-Checking the Output of Large Language Models via Token-Level
Uncertainty Quantification [119.38495860737929]
大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-07T17:44:17Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - Large Language Models As Faithful Explainers [67.38301892818778]
大規模言語モデル(LLM)は近年,その豊富な内部知識と推論能力を活用することで,複雑なタスクに対処する技術に長けている。
我々は、LLMの自然言語形式で提供される説明の忠実性を改善するために、生成的説明フレームワークであるxLLMを導入する。
3つのNLUデータセットで行った実験により、xLLMは生成された説明の忠実性を大幅に改善できることが示された。
論文 参考訳(メタデータ) (2024-02-07T09:09:14Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - Examining LLMs' Uncertainty Expression Towards Questions Outside
Parametric Knowledge [35.067234242461545]
大規模言語モデル(LLM)は、適切な応答を生成するのに十分なパラメトリック知識が不足している状況において不確実性を表現する。
本研究の目的は,このような状況下でのLCMの行動の体系的調査であり,誠実さと役に立つことのトレードオフを強調することである。
論文 参考訳(メタデータ) (2023-11-16T10:02:40Z) - Decomposing Uncertainty for Large Language Models through Input
Clarification Ensembling [74.00331519233026]
大規模言語モデル(LLM)のための不確実性分解フレームワークを提案する。
我々のフレームワークは入力の一連の明確化を生成し、それらを固定LLMに入力し、対応する予測をアンサンブルする。
実験により,提案手法は様々なタスクに対して正確かつ確実な不確実性定量化を提供することを示した。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Look Before You Leap: An Exploratory Study of Uncertainty Measurement
for Large Language Models [16.524794442035265]
本研究では,不確実性のレンズを用いたLarge Language Models(LLM)のリスク評価について検討する。
本研究は,LLMの不確かさ・非実効性予測に対する不確実性推定の有効性を検証した。
我々の研究から得た洞察は、信頼性の高いLCMの設計と開発に光を当てた。
論文 参考訳(メタデータ) (2023-07-16T08:28:04Z) - Shifting Attention to Relevance: Towards the Uncertainty Estimation of
Large Language Models [28.67546891608135]
大規模言語モデル (LLMs) は, 自然言語生成や命令の追従において, 顕著な可能性を示している。
不確実性定量化(UQ)は有望なソリューションであり、LLMのコンテキスト内での正確な実装は依然として大きなハードルである。
我々は,より関連性の高いコンポーネントへの注意をトークンレベルと文レベルの両方で協調的にシフトし,正確な不確かさを推定する。
論文 参考訳(メタデータ) (2023-07-03T22:17:16Z) - Generating with Confidence: Uncertainty Quantification for Black-box
Large Language Models [42.30291103270481]
自然言語生成(NLG)に特化した大規模言語モデル(LLM)が,最近,有望な機能を示すようになった。
我々は、信頼できない結果が無視されるか、さらなる評価のために得られる可能性のある選択的なNLGに適用し、いくつかの信頼/不確実性指標を提案し、比較する。
その結果, セマンティックな分散の簡易な測定基準が, LLM応答の質の信頼性の高い予測因子であることが判明した。
論文 参考訳(メタデータ) (2023-05-30T16:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。