論文の概要: Generating with Confidence: Uncertainty Quantification for Black-box
Large Language Models
- arxiv url: http://arxiv.org/abs/2305.19187v1
- Date: Tue, 30 May 2023 16:31:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 15:05:03.469532
- Title: Generating with Confidence: Uncertainty Quantification for Black-box
Large Language Models
- Title(参考訳): 信頼による生成:ブラックボックス大言語モデルの不確実性定量化
- Authors: Zhen Lin, Shubhendu Trivedi, Jimeng Sun
- Abstract要約: 自然言語生成(NLG)に特化した大規模言語モデル(LLM)が,最近,有望な機能を示すようになった。
我々は、いくつかの信頼/不確実性指標を提案し、それを$textitelect NLG$に適用する。
以上の結果から,LLM応答の質を推定する上で,平均的セマンティック分散の簡易かつ効果的な測定法が有効であることが示唆された。
- 参考スコア(独自算出の注目度): 40.282423098764404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) specializing in natural language generation
(NLG) have recently started exhibiting promising capabilities across a variety
of domains. However, gauging the trustworthiness of responses generated by LLMs
remains an open challenge, with limited research on uncertainty quantification
for NLG. Furthermore, existing literature typically assumes white-box access to
language models, which is becoming unrealistic either due to the closed-source
nature of the latest LLMs or due to computational constraints. In this work, we
investigate uncertainty quantification in NLG for $\textit{black-box}$ LLMs. We
first differentiate two closely-related notions: $\textit{uncertainty}$, which
depends only on the input, and $\textit{confidence}$, which additionally
depends on the generated response. We then propose and compare several
confidence/uncertainty metrics, applying them to $\textit{selective NLG}$,
where unreliable results could either be ignored or yielded for further
assessment. Our findings on several popular LLMs and datasets reveal that a
simple yet effective metric for the average semantic dispersion can be a
reliable predictor of the quality of LLM responses. This study can provide
valuable insights for practitioners on uncertainty management when adopting
LLMs. The code to replicate all our experiments is available at
https://github.com/zlin7/UQ-NLG.
- Abstract(参考訳): 自然言語生成(NLG)に特化した大規模言語モデル(LLM)は、最近、様々な領域で有望な能力を示すようになった。
しかし、LSMsが生み出す応答の信頼性を高めることは、NLGの不確実性定量化の研究が限られているため、未解決の課題である。
さらに、既存の文献では、言語モデルへのホワイトボックスアクセスを前提としており、これは最新のLCMのクローズドソースの性質や計算上の制約によって非現実的になっている。
本研究では NLG における $\textit{black-box}$ LLM の不確かさの定量化について検討する。
まず、入力のみに依存する$\textit{uncertainty}$と、生成したレスポンスに依存する$\textit{confidence}$という2つの密接な関係を持つ概念を区別します。
次に、いくつかの信頼度/不確実性指標を提案し、それらを$\textit{selective nlg}$に適用する。
これらの結果から,LLM応答の質の予測因子として,平均的セマンティック分散の簡易かつ効果的な指標が期待できることがわかった。
本研究は,llm導入時の不確実性管理に関する実践者にとって有用な知見を提供する。
すべての実験を再現するコードはhttps://github.com/zlin7/UQ-NLG.orgで公開されている。
関連論文リスト
- Understanding Privacy Risks of Embeddings Induced by Large Language Models [75.96257812857554]
大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。
1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。
近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
論文 参考訳(メタデータ) (2024-04-25T13:10:48Z) - Calibrating Large Language Models Using Their Generations Only [44.26441565763495]
APRICOT は、信頼目標を設定し、テキスト入力と出力のみに基づいて LLM の信頼度を予測する追加モデルを訓練する手法である。
概念的には単純で、出力以上のターゲットモデルへのアクセスを必要とせず、言語生成に干渉せず、多くの潜在的な使用法を持っている。
閉書質問応答における白箱と黒箱のLCMの校正誤差を考慮し,誤ったLCMの解答を検出する方法として,本手法の競合性を示す。
論文 参考訳(メタデータ) (2024-03-09T17:46:24Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Decomposing Uncertainty for Large Language Models through Input
Clarification Ensembling [74.00331519233026]
大規模言語モデル(LLM)のための不確実性分解フレームワークを提案する。
我々のフレームワークは入力の一連の明確化を生成し、それらを固定LLMに入力し、対応する予測をアンサンブルする。
実験により,提案手法は様々なタスクに対して正確かつ確実な不確実性定量化を提供することを示した。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Quantifying Uncertainty in Natural Language Explanations of Large
Language Models [29.34960984639281]
大規模言語モデル (LLM) は、高スループット自然言語処理 (NLP) アプリケーションのための強力なツールとして、ますます使われている。
生成された説明の不確かさを定量化するために、$textitVerbalized Uncertainty$と$textitProbing Uncertainty$という2つの新しいメトリクスを提案します。
ベンチマークデータセットの実証分析により、言語化された不確実性は説明の信頼性の信頼できる見積りではないことが判明した。
論文 参考訳(メタデータ) (2023-11-06T21:14:40Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Look Before You Leap: An Exploratory Study of Uncertainty Measurement
for Large Language Models [16.524794442035265]
本研究では,不確実性のレンズを用いたLarge Language Models(LLM)のリスク評価について検討する。
本研究は,LLMの不確かさ・非実効性予測に対する不確実性推定の有効性を検証した。
我々の研究から得た洞察は、信頼性の高いLCMの設計と開発に光を当てた。
論文 参考訳(メタデータ) (2023-07-16T08:28:04Z) - Certified Robustness for Large Language Models with Self-Denoising [42.916661225753145]
本稿では,大言語モデル (LLM) を用いて, 劣化した入力を自己認識的に認知する手法を提案する。
本手法は,証明された堅牢性と実証的堅牢性の両方の下で,既存の認証方法よりも優れる。
論文 参考訳(メタデータ) (2023-07-14T05:40:24Z) - Shifting Attention to Relevance: Towards the Uncertainty Estimation of
Large Language Models [28.67546891608135]
大規模言語モデル (LLMs) は, 自然言語生成や命令の追従において, 顕著な可能性を示している。
不確実性定量化(UQ)は有望なソリューションであり、LLMのコンテキスト内での正確な実装は依然として大きなハードルである。
我々は,より関連性の高いコンポーネントへの注意をトークンレベルと文レベルの両方で協調的にシフトし,正確な不確かさを推定する。
論文 参考訳(メタデータ) (2023-07-03T22:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。