論文の概要: Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification
- arxiv url: http://arxiv.org/abs/2403.04696v2
- Date: Thu, 6 Jun 2024 21:32:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 19:37:58.030589
- Title: Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification
- Title(参考訳): Token-Level不確実性定量化による大規模言語モデルの出力のFact-Checking
- Authors: Ekaterina Fadeeva, Aleksandr Rubashevskii, Artem Shelmanov, Sergey Petrakov, Haonan Li, Hamdy Mubarak, Evgenii Tsymbalov, Gleb Kuzmin, Alexander Panchenko, Timothy Baldwin, Preslav Nakov, Maxim Panov,
- Abstract要約: 大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
- 参考スコア(独自算出の注目度): 116.77055746066375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are notorious for hallucinating, i.e., producing erroneous claims in their output. Such hallucinations can be dangerous, as occasional factual inaccuracies in the generated text might be obscured by the rest of the output being generally factually correct, making it extremely hard for the users to spot them. Current services that leverage LLMs usually do not provide any means for detecting unreliable generations. Here, we aim to bridge this gap. In particular, we propose a novel fact-checking and hallucination detection pipeline based on token-level uncertainty quantification. Uncertainty scores leverage information encapsulated in the output of a neural network or its layers to detect unreliable predictions, and we show that they can be used to fact-check the atomic claims in the LLM output. Moreover, we present a novel token-level uncertainty quantification method that removes the impact of uncertainty about what claim to generate on the current step and what surface form to use. Our method Claim Conditioned Probability (CCP) measures only the uncertainty of a particular claim value expressed by the model. Experiments on the task of biography generation demonstrate strong improvements for CCP compared to the baselines for seven LLMs and four languages. Human evaluation reveals that the fact-checking pipeline based on uncertainty quantification is competitive with a fact-checking tool that leverages external knowledge.
- Abstract(参考訳): 大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
このような幻覚は危険であり、生成したテキストの事実的不正確さは、出力の残りが一般的に事実的に正しいため、ユーザーが発見するのは極めて困難である。
LLMを利用する現在のサービスは、通常、信頼できない世代を検出する手段を提供しない。
ここでは、このギャップを埋めることを目指しています。
特に,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
不確実性スコアは、ニューラルネットワークまたはそのレイヤの出力にカプセル化された情報を利用して、信頼できない予測を検知し、LLM出力の原子的クレームをファクトチェックすることができることを示す。
さらに, トークンレベルの不確実性定量化手法を提案する。
提案手法は, モデルで表される特定のクレーム値の不確実性のみをCCP(Crim Conditioned Probability)で測定する。
バイオグラフィー生成の課題に関する実験は、7つのLLMと4つの言語のベースラインと比較してCCPの強い改善を示す。
人間の評価は、不確実性定量化に基づく事実チェックパイプラインが、外部知識を活用する事実チェックツールと競合していることを示している。
関連論文リスト
- COPU: Conformal Prediction for Uncertainty Quantification in Natural Language Generation [14.461333001997449]
大規模言語モデル(LLM)の性能評価には,自然言語生成のための不確実性定量化(UQ)が不可欠である。
提案手法は,候補出力に基底真理を明示的に付加し,ロジットスコアを用いて非整合性を測定する手法である。
論文 参考訳(メタデータ) (2025-02-18T07:25:12Z) - Enhancing Trust in Large Language Models with Uncertainty-Aware Fine-Tuning [10.457661605916435]
大規模言語モデル(LLM)は、その印象的な推論と質問応答能力によって自然言語処理の分野に革命をもたらした。
LLMは時に、幻覚として知られる、信頼できるが誤った情報を生成する傾向にある。
本稿では,決定論の原理に基づく不確実性を考慮した因果的言語モデリング損失関数を提案する。
論文 参考訳(メタデータ) (2024-12-03T23:14:47Z) - Multi-group Uncertainty Quantification for Long-form Text Generation [29.65035492536852]
長文の自然言語生成における事実的正当性の不確実性定量化の問題について検討する。
このような不確実性を保証するために,マルチキャリブレーションとマルチバリッドコンフォメーション予測を起動する。
論文 参考訳(メタデータ) (2024-07-25T02:59:52Z) - To Believe or Not to Believe Your LLM [51.2579827761899]
大規模言語モデル(LLM)における不確実性定量化について検討する。
疫学的な不確実性が大きい場合にのみ確実に検出できる情報理論の指標を導出する。
定式化の利点を実証する一連の実験を行う。
論文 参考訳(メタデータ) (2024-06-04T17:58:18Z) - Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。