論文の概要: Language Models with Conformal Factuality Guarantees
- arxiv url: http://arxiv.org/abs/2402.10978v1
- Date: Thu, 15 Feb 2024 18:31:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 00:15:40.305016
- Title: Language Models with Conformal Factuality Guarantees
- Title(参考訳): 共形事実性保証付き言語モデル
- Authors: Christopher Mohri, Tatsunori Hashimoto
- Abstract要約: コンフォーマルな事実性(conformal factuality)は、言語モデル(LM)出力に対する高い確率の正確性を保証するフレームワークである。
言語モデルにおける共形予測は,高い確率精度保証を提供するバックオフアルゴリズムに対応することを示す。
- 参考スコア(独自算出の注目度): 44.767328168194815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Guaranteeing the correctness and factuality of language model (LM) outputs is
a major open problem. In this work, we propose conformal factuality, a
framework that can ensure high probability correctness guarantees for LMs by
connecting language modeling and conformal prediction. We observe that the
correctness of an LM output is equivalent to an uncertainty quantification
problem, where the uncertainty sets are defined as the entailment set of an
LM's output. Using this connection, we show that conformal prediction in
language models corresponds to a back-off algorithm that provides high
probability correctness guarantees by progressively making LM outputs less
specific (and expanding the associated uncertainty sets). This approach applies
to any black-box LM and requires very few human-annotated samples. Evaluations
of our approach on closed book QA (FActScore, NaturalQuestions) and reasoning
tasks (MATH) show that our approach can provide 80-90% correctness guarantees
while retaining the majority of the LM's original output.
- Abstract(参考訳): 言語モデル(LM)出力の正確性と事実性を保証することは、大きなオープンな問題である。
本研究では,言語モデルと共形予測を接続することにより,LMの確率的正確性を保証するフレームワークである共形事実性を提案する。
lm出力の正しさは不確実性定量化問題と同値であり、不確実性集合はlm出力の補集合として定義される。
この接続を用いて、言語モデルにおける共形予測は、LM出力を徐々に具体化(および関連する不確実性集合の拡大)し、高い確率正当性を保証するバックオフアルゴリズムに対応することを示す。
このアプローチは任意のブラックボックスlmに適用でき、人間の注釈付きサンプルをほとんど必要としない。
閉書QA(FActScore, NaturalQuestions)と推論タスク(MATH)に対する我々のアプローチの評価は、LMの原出力の大部分を維持しつつ、80~90%の正確性を保証することができることを示している。
関連論文リスト
- ConU: Conformal Uncertainty in Large Language Models with Correctness Coverage Guarantees [68.33498595506941]
自己整合性理論に基づく新しい不確実性尺度を導入する。
次に,CPアルゴリズムに正当性に整合した不確かさ条件を組み込むことにより,適合性不確かさの基準を策定する。
実証的な評価は、我々の不確実性測定が過去の最先端手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-29T17:33:07Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Investigating Uncertainty Calibration of Aligned Language Models under
the Multiple-Choice Setting [31.386229001853817]
本研究は,複数選択条件下でのLMのロジットに基づく不確実性校正に対するアライメントプロセスの影響を系統的に評価する。
複数選択条件下では2つの不確実性がみられ, 応答決定とフォーマット選好の責任を負う。
そこで本研究では,協調型LMのキャリブレーションを行うための,実装が容易かつサンプル効率のよい手法を提案する。
論文 参考訳(メタデータ) (2023-10-18T06:07:28Z) - Conformal Language Modeling [61.94417935386489]
生成言語モデル(LM)の共形予測のための新しい手法を提案する。
標準共形予測は厳密で統計的に保証された予測セットを生成する。
我々は,オープンドメイン質問応答,テキスト要約,ラジオロジーレポート生成において,複数のタスクに対するアプローチの約束を実証する。
論文 参考訳(メタデータ) (2023-06-16T21:55:08Z) - Generating with Confidence: Uncertainty Quantification for Black-box Large Language Models [37.63939774027709]
自然言語生成(NLG)に特化した大規模言語モデル(LLM)が,最近,有望な機能を示すようになった。
我々は、信頼できない結果が無視されるか、さらなる評価のために得られるような、選択的なNLG*に適用し、いくつかの信頼/不確実性対策を提案し、比較する。
その結果, セマンティックな分散の簡易な測定は, LLM応答の質の信頼性を予測できることがわかった。
論文 参考訳(メタデータ) (2023-05-30T16:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。