論文の概要: Generating with Confidence: Uncertainty Quantification for Black-box
Large Language Models
- arxiv url: http://arxiv.org/abs/2305.19187v2
- Date: Mon, 9 Oct 2023 16:30:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 11:54:35.137058
- Title: Generating with Confidence: Uncertainty Quantification for Black-box
Large Language Models
- Title(参考訳): 信頼による生成:ブラックボックス大言語モデルの不確実性定量化
- Authors: Zhen Lin, Shubhendu Trivedi, Jimeng Sun
- Abstract要約: 自然言語生成(NLG)に特化した大規模言語モデル(LLM)が,最近,有望な機能を示すようになった。
我々は、信頼できない結果が無視されるか、さらなる評価のために得られる可能性のある選択的なNLGに適用し、いくつかの信頼/不確実性指標を提案し、比較する。
その結果, セマンティックな分散の簡易な測定基準が, LLM応答の質の信頼性の高い予測因子であることが判明した。
- 参考スコア(独自算出の注目度): 42.30291103270481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) specializing in natural language generation
(NLG) have recently started exhibiting promising capabilities across a variety
of domains. However, gauging the trustworthiness of responses generated by LLMs
remains an open challenge, with limited research on uncertainty quantification
(UQ) for NLG. Furthermore, existing literature typically assumes white-box
access to language models, which is becoming unrealistic either due to the
closed-source nature of the latest LLMs or computational constraints. In this
work, we investigate UQ in NLG for black-box LLMs. We first differentiate
uncertainty vs confidence: the former refers to the "dispersion" of the
potential predictions for a fixed input, and the latter refers to the
confidence on a particular prediction/generation. We then propose and compare
several confidence/uncertainty metrics, applying them to selective NLG where
unreliable results could either be ignored or yielded for further assessment.
Experiments were carried out with several popular LLMs on question-answering
datasets (for evaluation purposes). Results reveal that a simple metric for the
semantic dispersion can be a reliable predictor of the quality of LLM
responses, providing valuable insights for practitioners on uncertainty
management when adopting LLMs. The code to replicate our experiments is
available at https://github.com/zlin7/UQ-NLG.
- Abstract(参考訳): 自然言語生成(NLG)に特化した大規模言語モデル(LLM)は、最近、様々な領域で有望な能力を示すようになった。
しかし、LSMsが生み出す応答の信頼性を追求することは、NLGの不確実性定量化(UQ)の研究が限られており、未解決の課題である。
さらに、既存の文献では言語モデルへのホワイトボックスアクセスを前提としており、これは最新のLCMのクローズソースの性質や計算上の制約によって非現実的になっている。
本研究では,NLG におけるブラックボックス LLM の UQ について検討する。
我々はまず、不確実性と信頼を区別する: 前者は、固定された入力に対する潜在的な予測の「分散」、後者は特定の予測/世代に対する信頼を指す。
次に,いくつかの信頼度/不確実性指標を提案し比較し,信頼できない結果が無視されるか,あるいはさらなる評価を行うことができる選択的nlgに適用する。
質問応答データセット(評価目的)について,いくつかのLLMを用いて実験を行った。
その結果, 意味的分散の簡易な指標は, LLMの応答品質の信頼性の高い予測因子となり, LLMを採用する際の不確実性管理の実践者にとって貴重な知見となることがわかった。
実験を再現するコードはhttps://github.com/zlin7/UQ-NLG.comで公開されている。
関連論文リスト
- Calibrating Large Language Models Using Their Generations Only [44.26441565763495]
APRICOT は、信頼目標を設定し、テキスト入力と出力のみに基づいて LLM の信頼度を予測する追加モデルを訓練する手法である。
概念的には単純で、出力以上のターゲットモデルへのアクセスを必要とせず、言語生成に干渉せず、多くの潜在的な使用法を持っている。
閉書質問応答における白箱と黒箱のLCMの校正誤差を考慮し,誤ったLCMの解答を検出する方法として,本手法の競合性を示す。
論文 参考訳(メタデータ) (2024-03-09T17:46:24Z) - Fact-Checking the Output of Large Language Models via Token-Level
Uncertainty Quantification [119.38495860737929]
大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-07T17:44:17Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Decomposing Uncertainty for Large Language Models through Input
Clarification Ensembling [74.00331519233026]
大規模言語モデル(LLM)のための不確実性分解フレームワークを提案する。
我々のフレームワークは入力の一連の明確化を生成し、それらを固定LLMに入力し、対応する予測をアンサンブルする。
実験により,提案手法は様々なタスクに対して正確かつ確実な不確実性定量化を提供することを示した。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Quantifying Uncertainty in Natural Language Explanations of Large
Language Models [29.34960984639281]
大規模言語モデル (LLM) は、高スループット自然言語処理 (NLP) アプリケーションのための強力なツールとして、ますます使われている。
生成された説明の不確かさを定量化するために、$textitVerbalized Uncertainty$と$textitProbing Uncertainty$という2つの新しいメトリクスを提案します。
ベンチマークデータセットの実証分析により、言語化された不確実性は説明の信頼性の信頼できる見積りではないことが判明した。
論文 参考訳(メタデータ) (2023-11-06T21:14:40Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Look Before You Leap: An Exploratory Study of Uncertainty Measurement
for Large Language Models [16.524794442035265]
本研究では,不確実性のレンズを用いたLarge Language Models(LLM)のリスク評価について検討する。
本研究は,LLMの不確かさ・非実効性予測に対する不確実性推定の有効性を検証した。
我々の研究から得た洞察は、信頼性の高いLCMの設計と開発に光を当てた。
論文 参考訳(メタデータ) (2023-07-16T08:28:04Z) - Certified Robustness for Large Language Models with Self-Denoising [42.916661225753145]
本稿では,大言語モデル (LLM) を用いて, 劣化した入力を自己認識的に認知する手法を提案する。
本手法は,証明された堅牢性と実証的堅牢性の両方の下で,既存の認証方法よりも優れる。
論文 参考訳(メタデータ) (2023-07-14T05:40:24Z) - Shifting Attention to Relevance: Towards the Uncertainty Estimation of
Large Language Models [28.67546891608135]
大規模言語モデル (LLMs) は, 自然言語生成や命令の追従において, 顕著な可能性を示している。
不確実性定量化(UQ)は有望なソリューションであり、LLMのコンテキスト内での正確な実装は依然として大きなハードルである。
我々は,より関連性の高いコンポーネントへの注意をトークンレベルと文レベルの両方で協調的にシフトし,正確な不確かさを推定する。
論文 参考訳(メタデータ) (2023-07-03T22:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。