論文の概要: Rethinking Uncertainty Estimation in Natural Language Generation
- arxiv url: http://arxiv.org/abs/2412.15176v1
- Date: Thu, 19 Dec 2024 18:51:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:30:23.594694
- Title: Rethinking Uncertainty Estimation in Natural Language Generation
- Title(参考訳): 自然言語生成における不確かさ推定の再考
- Authors: Lukas Aichberger, Kajetan Schweighofer, Sepp Hochreiter,
- Abstract要約: 大規模言語モデル(LLM)は、現実のアプリケーションにますます採用されている。
不確実性推定法は複数の出力シーケンスを生成し解析し、LCMの不確実性を決定する。
単一出力シーケンスのみを用いて得られる利点を持つG-NLLを提案する。
- 参考スコア(独自算出の注目度): 6.3398383724486544
- License:
- Abstract: Large Language Models (LLMs) are increasingly employed in real-world applications, driving the need to evaluate the trustworthiness of their generated text. To this end, reliable uncertainty estimation is essential. Since current LLMs generate text autoregressively through a stochastic process, the same prompt can lead to varying outputs. Consequently, leading uncertainty estimation methods generate and analyze multiple output sequences to determine the LLM's uncertainty. However, generating output sequences is computationally expensive, making these methods impractical at scale. In this work, we inspect the theoretical foundations of the leading methods and explore new directions to enhance their computational efficiency. Building on the framework of proper scoring rules, we find that the negative log-likelihood of the most likely output sequence constitutes a theoretically grounded uncertainty measure. To approximate this alternative measure, we propose G-NLL, which has the advantage of being obtained using only a single output sequence generated by greedy decoding. This makes uncertainty estimation more efficient and straightforward, while preserving theoretical rigor. Empirical results demonstrate that G-NLL achieves state-of-the-art performance across various LLMs and tasks. Our work lays the foundation for efficient and reliable uncertainty estimation in natural language generation, challenging the necessity of more computationally involved methods currently leading the field.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現実のアプリケーションでますます採用され、生成されたテキストの信頼性を評価する必要性が高まっている。
この目的のためには、確実な不確実性推定が不可欠である。
現在のLLMは確率過程を通じてテキストを自動回帰的に生成するため、同じプロンプトが様々な出力につながる可能性がある。
その結果、リード不確実性推定法は複数の出力シーケンスを生成し解析し、LCMの不確実性を決定する。
しかし、出力シーケンスの生成には計算コストがかかるため、これらの手法は大規模に非現実的である。
本研究では,先導手法の理論的基礎を検証し,その計算効率を高めるために新たな方向を探索する。
適切なスコアリングルールの枠組みに基づいて、最も可能性の高い出力シーケンスの負の対数類似度が理論的に根拠付けられた不確実性尺度を構成することが分かる。
この代替手段を近似するために、greedy復号によって生成される単一の出力シーケンスのみを用いて得られる利点を持つG-NLLを提案する。
これにより、理論的な厳密さを保ちながら、不確実性の推定をより効率的かつ簡単なものにすることができる。
実験の結果, G-NLL は様々な LLM やタスクにまたがって最先端の性能を実現することが示された。
我々の研究は、自然言語生成における効率的で確実な不確実性推定の基礎を築き、現在この分野をリードしているより計算にかかわる手法の必要性に挑戦する。
関連論文リスト
- Assessing Correctness in LLM-Based Code Generation via Uncertainty Estimation [0.0]
LLM生成符号の正確性のプロキシとして不確実性推定を検討する。
我々は、自然言語生成から最先端の2つの技術を適用した。
我々は,不確実性が高い場合にモデルを予測できないようにするための禁忌ポリシーを開発する。
論文 参考訳(メタデータ) (2025-02-17T10:03:01Z) - ConU: Conformal Uncertainty in Large Language Models with Correctness Coverage Guarantees [68.33498595506941]
自己整合性理論に基づく新しい不確実性尺度を導入する。
次に,CPアルゴリズムに正当性に整合した不確かさ条件を組み込むことにより,適合性不確かさの基準を策定する。
実証的な評価は、我々の不確実性測定が過去の最先端手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-29T17:33:07Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities [79.9629927171974]
大規模言語モデル(LLM)の不確実性は、安全性と信頼性が重要であるアプリケーションには不可欠である。
ホワイトボックスとブラックボックス LLM における不確実性評価手法である Kernel Language Entropy (KLE) を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:42:05Z) - Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification [116.77055746066375]
大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-07T17:44:17Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - A Learning-Based Optimal Uncertainty Quantification Method and Its
Application to Ballistic Impact Problems [1.713291434132985]
本稿では、入力(または事前)測度が部分的に不完全であるシステムに対する最適(最大および無限)不確実性境界について述べる。
本研究では,不確実性最適化問題に対する学習基盤の枠組みを実証する。
本手法は,工学的実践における性能証明と安全性のためのマップ構築に有効であることを示す。
論文 参考訳(メタデータ) (2022-12-28T14:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。