論文の概要: Fact-Checking the Output of Large Language Models via Token-Level
Uncertainty Quantification
- arxiv url: http://arxiv.org/abs/2403.04696v1
- Date: Thu, 7 Mar 2024 17:44:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 13:15:30.520423
- Title: Fact-Checking the Output of Large Language Models via Token-Level
Uncertainty Quantification
- Title(参考訳): トークンレベル不確実性定量化による大規模言語モデルの出力のFact-Checking
- Authors: Ekaterina Fadeeva, Aleksandr Rubashevskii, Artem Shelmanov, Sergey
Petrakov, Haonan Li, Hamdy Mubarak, Evgenii Tsymbalov, Gleb Kuzmin, Alexander
Panchenko, Timothy Baldwin, Preslav Nakov, Maxim Panov
- Abstract要約: 大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
- 参考スコア(独自算出の注目度): 119.38495860737929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are notorious for hallucinating, i.e., producing
erroneous claims in their output. Such hallucinations can be dangerous, as
occasional factual inaccuracies in the generated text might be obscured by the
rest of the output being generally factual, making it extremely hard for the
users to spot them. Current services that leverage LLMs usually do not provide
any means for detecting unreliable generations. Here, we aim to bridge this
gap. In particular, we propose a novel fact-checking and hallucination
detection pipeline based on token-level uncertainty quantification. Uncertainty
scores leverage information encapsulated in the output of a neural network or
its layers to detect unreliable predictions, and we show that they can be used
to fact-check the atomic claims in the LLM output. Moreover, we present a novel
token-level uncertainty quantification method that removes the impact of
uncertainty about what claim to generate on the current step and what surface
form to use. Our method Claim Conditioned Probability (CCP) measures only the
uncertainty of particular claim value expressed by the model. Experiments on
the task of biography generation demonstrate strong improvements for CCP
compared to the baselines for six different LLMs and three languages. Human
evaluation reveals that the fact-checking pipeline based on uncertainty
quantification is competitive with a fact-checking tool that leverages external
knowledge.
- Abstract(参考訳): 大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
このような幻覚は危険であり、生成したテキストの事実的不正確さは、出力の残りが一般的に事実であることによって隠蔽される可能性があるため、ユーザーがそれらを見つけるのは非常に困難である。
LLMを利用する現在のサービスは、通常、信頼できない世代を検出する手段を提供しない。
ここではこのギャップを埋めることを目指しています。
特に,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
不確実性スコアは、ニューラルネットワークまたはそのレイヤの出力にカプセル化された情報を利用して、信頼できない予測を検知し、LLM出力の原子的クレームをファクトチェックすることができることを示す。
さらに,新たなトークンレベルの不確実性定量化手法を提案する。
提案手法は, モデルが表現する特定のクレーム値の不確実性のみをCCP(Crim Conditioned Probability)で測定する。
バイオグラフィー生成の課題に関する実験は、6つの異なるLLMと3つの言語に対するベースラインと比較してCCPを強く改善した。
人間の評価は、不確実性定量化に基づく事実チェックパイプラインが、外部知識を活用する事実チェックツールと競合していることを示している。
関連論文リスト
- Multi-group Uncertainty Quantification for Long-form Text Generation [29.65035492536852]
長文の自然言語生成における事実的正当性の不確実性定量化の問題について検討する。
このような不確実性を保証するために,マルチキャリブレーションとマルチバリッドコンフォメーション予測を起動する。
論文 参考訳(メタデータ) (2024-07-25T02:59:52Z) - To Believe or Not to Believe Your LLM [51.2579827761899]
大規模言語モデル(LLM)における不確実性定量化について検討する。
疫学的な不確実性が大きい場合にのみ確実に検出できる情報理論の指標を導出する。
定式化の利点を実証する一連の実験を行う。
論文 参考訳(メタデータ) (2024-06-04T17:58:18Z) - Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - Distinguishing the Knowable from the Unknowable with Language Models [15.471748481627143]
地中真理確率の欠如において、与えられた不確実性を解き放つために、より大きなモデルが地中真理の代用として現れるような設定を探索する。
凍結, 事前訓練されたモデルの埋め込みを訓練した小さな線形プローブが, トークンレベルでより大きなモデルがより自信を持つようになる時期を正確に予測することを示した。
我々は,同じタスクにおいて非自明な精度を実現する,完全に教師なしの手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T22:22:49Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Quantifying Uncertainty in Natural Language Explanations of Large
Language Models [29.34960984639281]
大規模言語モデル (LLM) は、高スループット自然言語処理 (NLP) アプリケーションのための強力なツールとして、ますます使われている。
生成された説明の不確かさを定量化するために、$textitVerbalized Uncertainty$と$textitProbing Uncertainty$という2つの新しいメトリクスを提案します。
ベンチマークデータセットの実証分析により、言語化された不確実性は説明の信頼性の信頼できる見積りではないことが判明した。
論文 参考訳(メタデータ) (2023-11-06T21:14:40Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。