論文の概要: Can LLMs Express Their Uncertainty? An Empirical Evaluation of
Confidence Elicitation in LLMs
- arxiv url: http://arxiv.org/abs/2306.13063v1
- Date: Thu, 22 Jun 2023 17:31:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 13:27:42.272111
- Title: Can LLMs Express Their Uncertainty? An Empirical Evaluation of
Confidence Elicitation in LLMs
- Title(参考訳): LLMは不確かさを表現できるのか?
LLMにおける信頼緩和の実証評価
- Authors: Miao Xiong, Zhiyuan Hu, Xinyang Lu, Yifei Li, Jie Fu, Junxian He,
Bryan Hooi
- Abstract要約: 本稿では,モデル微調整やプロプライエタリ情報へのアクセスを必要としない信頼性評価手法について検討する。
本稿では,言語化に基づく手法,一貫性に基づく手法,およびベンチマークのためのハイブリッド手法の3つのカテゴリを紹介する。
これらの手法を解析した結果,いくつかの重要な知見が得られた。
- 参考スコア(独自算出の注目度): 45.66518090353208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of empowering large language models (LLMs) to accurately express
their confidence, referred to as confidence elicitation, is essential in
ensuring reliable and trustworthy decision-making processes. Previous methods,
which primarily rely on model logits, have become less suitable for LLMs and
even infeasible with the rise of closed-source LLMs (e.g., commercialized LLM
APIs). This leads to a growing need to explore the untapped area of
\emph{non-logit-based} approaches to estimate the uncertainty of LLMs. Hence,
in this study, we investigate approaches for confidence elicitation that do not
require model fine-tuning or access to proprietary information. We introduce
three categories of methods: verbalize-based, consistency-based, and their
hybrid methods for benchmarking, and evaluate their performance across five
types of datasets and four widely-used LLMs. Our analysis of these methods
uncovers several key insights: 1) LLMs often exhibit a high degree of
overconfidence when verbalizing their confidence; 2) Prompting strategies such
as CoT, Top-K and Multi-step confidences improve calibration of verbalized
confidence; 3) Consistency-based methods outperform the verbalized confidences
in most cases, with particularly notable improvements on the arithmetic
reasoning task; 4) Hybrid methods consistently deliver the best performance
over their baselines, thereby emerging as a promising state-of-the-art
approach; 5) Despite these advancements, all investigated methods continue to
struggle with challenging tasks, such as those requiring professional
knowledge, leaving significant scope for improvement of confidence elicitation.
- Abstract(参考訳): 大きな言語モデル(LLM)の信頼性を正確に表現するためのタスクは、信頼性と信頼性の高い意思決定プロセスを保証する上で不可欠である。
従来の手法は主にモデルロジットに依存していたが、LLMには適せず、クローズドソースのLLM(例えば商用のLLM API)の登場で実現不可能になった。
これにより、llmの不確かさを推定するための\emph{non-logit-based} アプローチの未解決領域を探索する必要性が高まる。
そこで本研究では,モデル微調整やプロプライエタリ情報へのアクセスを必要としない信頼性評価手法について検討する。
本稿では,5種類のデータセットと4種類の LLM を対象とし,言語化ベース,一貫性ベース,およびそれらのハイブリッドなベンチマーク手法の3つのカテゴリを紹介した。
これらの手法の分析によって、いくつかの重要な知見が明らかになる。
1) LLMは,その信頼を言葉で表す際に,高い自信を示すことが多い。
2) cot, top-k, multi-step confidences などの戦略の推進は,言語化された信頼のキャリブレーションを改善する。
3) 一貫性に基づく手法は,ほとんどの場合,特に算術的推論タスクにおいて,言語化された信頼度よりも優れる。
4) ハイブリッド手法は,ベースラインに対して一貫して最高のパフォーマンスを提供するため,有望な最先端アプローチとして出現する。
5) これらの進歩にもかかわらず, 全ての調査手法は, 専門家の知識を必要とするような課題に苦慮し, 信頼性向上のかなりの範囲を残している。
関連論文リスト
- Fact-and-Reflection (FaR) Improves Confidence Calibration of Large
Language Models [89.20169610517381]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。
実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。
FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文 参考訳(メタデータ) (2024-02-27T01:37:23Z) - TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [64.14848764079503]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。
本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文 参考訳(メタデータ) (2024-02-19T21:12:14Z) - The Calibration Gap between Model and Human Confidence in Large Language
Models [14.539888672603743]
大規模言語モデル(LLM)は、その予測がどの程度正確であるかを正確に評価し、伝達できるという意味で、十分に校正される必要がある。
最近の研究は、内部LCMの信頼性評価の品質に焦点を当てている。
本稿では,LLMの応答における外部人間の信頼度とモデルの内部信頼度との相違について検討する。
論文 参考訳(メタデータ) (2024-01-24T22:21:04Z) - Benchmarking LLMs via Uncertainty Quantification [95.67653501674995]
我々は,Large Language Models (LLM) のための新しいベンチマーク手法を導入する。
本試験では,5つの自然言語処理タスクにまたがる8つのLLMについて検討した。
予測精度と予測不確実性の両方を考慮して,不確実性を考慮した評価指標UAccを導入する。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - TrustLLM: Trustworthiness in Large Language Models [446.5220130390284]
本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。
まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。
これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
論文 参考訳(メタデータ) (2024-01-10T22:07:21Z) - Examining LLMs' Uncertainty Expression Towards Questions Outside
Parametric Knowledge [35.067234242461545]
大規模言語モデル(LLM)は、適切な応答を生成するのに十分なパラメトリック知識が不足している状況において不確実性を表現する。
本研究の目的は,このような状況下でのLCMの行動の体系的調査であり,誠実さと役に立つことのトレードオフを強調することである。
論文 参考訳(メタデータ) (2023-11-16T10:02:40Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Quantifying Uncertainty in Answers from any Language Model and Enhancing
their Trustworthiness [16.35655151252159]
本稿では,事前訓練された大規模言語モデルから悪い,投機的な回答を検出するBSDetectorを紹介する。
我々の不確実性定量化技術は,ブラックボックスAPIを通じてのみアクセス可能な LLM に対して有効である。
論文 参考訳(メタデータ) (2023-08-30T17:53:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。