論文の概要: ConU: Conformal Uncertainty in Large Language Models with Correctness Coverage Guarantees
- arxiv url: http://arxiv.org/abs/2407.00499v3
- Date: Mon, 18 Nov 2024 08:33:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:34.273988
- Title: ConU: Conformal Uncertainty in Large Language Models with Correctness Coverage Guarantees
- Title(参考訳): ConU: 訂正カバレッジ保証付き大規模言語モデルにおける整合不確かさ
- Authors: Zhiyuan Wang, Jinhao Duan, Lu Cheng, Yue Zhang, Qingni Wang, Xiaoshuang Shi, Kaidi Xu, Hengtao Shen, Xiaofeng Zhu,
- Abstract要約: 自己整合性理論に基づく新しい不確実性尺度を導入する。
次に,CPアルゴリズムに正当性に整合した不確かさ条件を組み込むことにより,適合性不確かさの基準を策定する。
実証的な評価は、我々の不確実性測定が過去の最先端手法よりも優れていることを示している。
- 参考スコア(独自算出の注目度): 68.33498595506941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Uncertainty quantification (UQ) in natural language generation (NLG) tasks remains an open challenge, exacerbated by the closed-source nature of the latest large language models (LLMs). This study investigates applying conformal prediction (CP), which can transform any heuristic uncertainty notion into rigorous prediction sets, to black-box LLMs in open-ended NLG tasks. We introduce a novel uncertainty measure based on self-consistency theory, and then develop a conformal uncertainty criterion by integrating the uncertainty condition aligned with correctness into the CP algorithm. Empirical evaluations indicate that our uncertainty measure outperforms prior state-of-the-art methods. Furthermore, we achieve strict control over the correctness coverage rate utilizing 7 popular LLMs on 4 free-form NLG datasets, spanning general-purpose and medical scenarios. Additionally, the calibrated prediction sets with small size further highlights the efficiency of our method in providing trustworthy guarantees for practical open-ended NLG applications.
- Abstract(参考訳): 自然言語生成(NLG)タスクにおける不確実性定量化(UQ)は、最新の大規模言語モデル(LLM)のクローズソースの性質によってさらに悪化する、オープンな課題である。
本研究では,任意のヒューリスティックな不確実性概念を厳密な予測集合に変換可能な共形予測(CP)を,オープンエンドNLGタスクにおけるブラックボックスLEMに適用することを検討した。
自己整合性理論に基づく新しい不確実性尺度を導入し, 正当性に整合した不確実性条件をCPアルゴリズムに統合することにより, 整合性不確実性基準を策定する。
実証的な評価は、我々の不確実性測定が従来の最先端手法よりも優れていることを示している。
さらに, 汎用シナリオと医療シナリオにまたがる4つのフリーフォームNLGデータセット上で, 7つのLLMを用いて, 精度カバレッジ率を厳格に制御する。
さらに,小型のキャリブレーション予測セットは,実用的オープンエンドNLGアプリケーションに対して信頼性の高い保証を提供することで,提案手法の効率性をさらに強調する。
関連論文リスト
- Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。
このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。
この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-24T15:39:46Z) - SConU: Selective Conformal Uncertainty in Large Language Models [59.25881667640868]
SconU(Selective Conformal Uncertainity)と呼ばれる新しいアプローチを提案する。
我々は,特定の管理可能なリスクレベルで設定されたキャリブレーションの不確実性分布から,与えられたサンプルが逸脱するかどうかを決定するのに役立つ2つの共形p値を開発する。
我々のアプローチは、単一ドメインと学際的コンテキストの両方にわたる誤発見率の厳密な管理を促進するだけでなく、予測の効率を高める。
論文 参考訳(メタデータ) (2025-04-19T03:01:45Z) - Uncertainty Quantification and Confidence Calibration in Large Language Models: A Survey [11.737403011836532]
LLM(Large Language Models)は、医療、法律、交通といった高度な分野において、テキスト生成、推論、意思決定に優れる。
不確実性定量化(UQ)は、アウトプットの信頼度を推定することで信頼性を高め、リスク軽減と選択的予測を可能にする。
計算効率と不確実性次元に基づいてUQ手法を分類する新しい分類法を提案する。
論文 参考訳(メタデータ) (2025-03-20T05:04:29Z) - COPU: Conformal Prediction for Uncertainty Quantification in Natural Language Generation [14.461333001997449]
大規模言語モデル(LLM)の性能評価には,自然言語生成のための不確実性定量化(UQ)が不可欠である。
提案手法は,候補出力に基底真理を明示的に付加し,ロジットスコアを用いて非整合性を測定する手法である。
論文 参考訳(メタデータ) (2025-02-18T07:25:12Z) - Assessing Correctness in LLM-Based Code Generation via Uncertainty Estimation [0.0]
LLM生成符号の正確性のプロキシとして不確実性推定を検討する。
自然言語生成からコード生成領域への2つの最先端技術を適用する。
これらの手法を用いて計算した不確実性と正確性との間には強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2025-02-17T10:03:01Z) - Addressing Uncertainty in LLMs to Enhance Reliability in Generative AI [47.64301863399763]
中国レストランプロセスに触発された動的セマンティッククラスタリング手法を提案する。
生成したセマンティッククラスタのエントロピーを計算することにより,あるクエリ上でのLarge Language Model(LLM)の不確実性を定量化する。
本稿では,これらのクラスタの(負の)確率を,コンフォーマル予測フレームワーク内の(非)整合性スコアとして活用することを提案する。
論文 参考訳(メタデータ) (2024-11-04T18:49:46Z) - Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities [79.9629927171974]
大規模言語モデル(LLM)の不確実性は、安全性と信頼性が重要であるアプリケーションには不可欠である。
ホワイトボックスとブラックボックス LLM における不確実性評価手法である Kernel Language Entropy (KLE) を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:42:05Z) - Conformal Prediction for Natural Language Processing: A Survey [23.638214012459425]
コンフォーマル予測は理論的に健全で実用的なフレームワークとして現れている。
そのモデルに依存しない分布のない性質は、特にNLPシステムの現在の欠点に対処することを約束している。
本稿では,共形予測手法とその保証,およびNLPにおける既存応用に関する包括的調査を行う。
論文 参考訳(メタデータ) (2024-05-03T10:00:45Z) - Word-Sequence Entropy: Towards Uncertainty Estimation in Free-Form Medical Question Answering Applications and Beyond [52.246494389096654]
本稿ではワードシーケンスエントロピー(WSE)を紹介し,単語レベルとシーケンスレベルの不確実性を校正する手法を提案する。
We compare WSE with six baseline method on five free-form medical QA datasets, using 7 popular large language model (LLMs)。
論文 参考訳(メタデータ) (2024-02-22T03:46:08Z) - Language Models with Conformal Factuality Guarantees [44.767328168194815]
コンフォーマルな事実性(conformal factuality)は、言語モデル(LM)出力に対する高い確率の正確性を保証するフレームワークである。
言語モデルにおける共形予測は,高い確率精度保証を提供するバックオフアルゴリズムに対応することを示す。
論文 参考訳(メタデータ) (2024-02-15T18:31:53Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Generating with Confidence: Uncertainty Quantification for Black-box Large Language Models [37.63939774027709]
自然言語生成(NLG)に特化した大規模言語モデル(LLM)が,最近,有望な機能を示すようになった。
我々は、信頼できない結果が無視されるか、さらなる評価のために得られるような、選択的なNLG*に適用し、いくつかの信頼/不確実性対策を提案し、比較する。
その結果, セマンティックな分散の簡易な測定は, LLM応答の質の信頼性を予測できることがわかった。
論文 参考訳(メタデータ) (2023-05-30T16:31:26Z) - Amortized Conditional Normalized Maximum Likelihood: Reliable Out of
Distribution Uncertainty Estimation [99.92568326314667]
本研究では,不確実性推定のための拡張性のある汎用的アプローチとして,償却条件正規化最大値(ACNML)法を提案する。
提案アルゴリズムは条件付き正規化最大度(CNML)符号化方式に基づいており、最小記述長の原理に従って最小値の最適特性を持つ。
我々は、ACNMLが、分布外入力のキャリブレーションの観点から、不確実性推定のための多くの手法と好意的に比較することを示した。
論文 参考訳(メタデータ) (2020-11-05T08:04:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。