Fugu-MT 論文翻訳(概要): Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification

論文の概要: Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification

arxiv url: http://arxiv.org/abs/2403.04696v1
Date: Thu, 7 Mar 2024 17:44:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-08 13:15:30.520423
Title: Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification
Title（参考訳）: トークンレベル不確実性定量化による大規模言語モデルの出力のFact-Checking
Authors: Ekaterina Fadeeva, Aleksandr Rubashevskii, Artem Shelmanov, Sergey Petrakov, Haonan Li, Hamdy Mubarak, Evgenii Tsymbalov, Gleb Kuzmin, Alexander Panchenko, Timothy Baldwin, Preslav Nakov, Maxim Panov
Abstract要約: 大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
参考スコア（独自算出の注目度）: 119.38495860737929
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are notorious for hallucinating, i.e., producing erroneous claims in their output. Such hallucinations can be dangerous, as occasional factual inaccuracies in the generated text might be obscured by the rest of the output being generally factual, making it extremely hard for the users to spot them. Current services that leverage LLMs usually do not provide any means for detecting unreliable generations. Here, we aim to bridge this gap. In particular, we propose a novel fact-checking and hallucination detection pipeline based on token-level uncertainty quantification. Uncertainty scores leverage information encapsulated in the output of a neural network or its layers to detect unreliable predictions, and we show that they can be used to fact-check the atomic claims in the LLM output. Moreover, we present a novel token-level uncertainty quantification method that removes the impact of uncertainty about what claim to generate on the current step and what surface form to use. Our method Claim Conditioned Probability (CCP) measures only the uncertainty of particular claim value expressed by the model. Experiments on the task of biography generation demonstrate strong improvements for CCP compared to the baselines for six different LLMs and three languages. Human evaluation reveals that the fact-checking pipeline based on uncertainty quantification is competitive with a fact-checking tool that leverages external knowledge.
Abstract（参考訳）: 大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。このような幻覚は危険であり、生成したテキストの事実的不正確さは、出力の残りが一般的に事実であることによって隠蔽される可能性があるため、ユーザーがそれらを見つけるのは非常に困難である。 LLMを利用する現在のサービスは、通常、信頼できない世代を検出する手段を提供しない。ここではこのギャップを埋めることを目指しています。特に,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。不確実性スコアは、ニューラルネットワークまたはそのレイヤの出力にカプセル化された情報を利用して、信頼できない予測を検知し、LLM出力の原子的クレームをファクトチェックすることができることを示す。さらに,新たなトークンレベルの不確実性定量化手法を提案する。提案手法は, モデルが表現する特定のクレーム値の不確実性のみをCCP(Crim Conditioned Probability)で測定する。バイオグラフィー生成の課題に関する実験は、6つの異なるLLMと3つの言語に対するベースラインと比較してCCPを強く改善した。人間の評価は、不確実性定量化に基づく事実チェックパイプラインが、外部知識を活用する事実チェックツールと競合していることを示している。

関連論文リスト

Counterfactual Probing for Hallucination Detection and Mitigation in Large Language Models [0.0]
本研究では,大規模言語モデルにおける幻覚の検出と緩和のための新しいアプローチである,対物探索を提案する。提案手法は, 疑わしいが微妙な事実誤りを含む反事実文を動的に生成し, これらの摂動に対するモデルの感度を評価する。
論文参考訳（メタデータ） (2025-08-03T17:29:48Z)
Pretrained LLMs Learn Multiple Types of Uncertainty [23.807232455808613]
大規模言語モデルは現実世界の知識を捉えることで知られており、下流の多くのタスクに精通することができる。本研究では,LLMが不確実性をどのように捉えているのかを,それに対して明示的に訓練されることなく検討する。モデルの潜在空間における線形概念としての不確実性を考えると、事前訓練後にのみ捕捉されることが示される。
論文参考訳（メタデータ） (2025-05-27T14:06:15Z)
Uncertainty-Aware Attention Heads: Efficient Unsupervised Uncertainty Quantification for LLMs [114.46334319795785]
大型言語モデル(LLM)は、顕著な流布を示すが、しばしば「幻覚」として知られる致命的な誤りを引き起こす。本稿では,非教師的アプローチであるRAUQ(Recurrent Attention-based Uncertainty Quantification)を提案する。 4つのLLMと12の質問応答、要約、翻訳タスクにわたる実験は、RAUQが優れた結果をもたらすことを示した。
論文参考訳（メタデータ） (2025-05-26T14:28:37Z)
COPU: Conformal Prediction for Uncertainty Quantification in Natural Language Generation [14.461333001997449]
大規模言語モデル(LLM)の性能評価には,自然言語生成のための不確実性定量化(UQ)が不可欠である。提案手法は,候補出力に基底真理を明示的に付加し,ロジットスコアを用いて非整合性を測定する手法である。
論文参考訳（メタデータ） (2025-02-18T07:25:12Z)
Estimating LLM Uncertainty with Evidence [66.51144261657983]
本稿では,大規模言語モデルにおける非結合トークンの不確実性を推定するためのフレームワークとして,ロジッツ誘発トークン不確実性(LogTokU)を提案する。我々は,LogTokUの実装にエビデンスモデリングを採用し,その不確実性を推定して下流タスクを導出する。
論文参考訳（メタデータ） (2025-02-01T03:18:02Z)
Enhancing Trust in Large Language Models with Uncertainty-Aware Fine-Tuning [10.457661605916435]
大規模言語モデル(LLM)は、その印象的な推論と質問応答能力によって自然言語処理の分野に革命をもたらした。 LLMは時に、幻覚として知られる、信頼できるが誤った情報を生成する傾向にある。本稿では,決定論の原理に基づく不確実性を考慮した因果的言語モデリング損失関数を提案する。
論文参考訳（メタデータ） (2024-12-03T23:14:47Z)
Multi-group Uncertainty Quantification for Long-form Text Generation [29.65035492536852]
長文の自然言語生成における事実的正当性の不確実性定量化の問題について検討する。このような不確実性を保証するために,マルチキャリブレーションとマルチバリッドコンフォメーション予測を起動する。
論文参考訳（メタデータ） (2024-07-25T02:59:52Z)
To Believe or Not to Believe Your LLM [51.2579827761899]
大規模言語モデル(LLM)における不確実性定量化について検討する。疫学的な不確実性が大きい場合にのみ確実に検出できる情報理論の指標を導出する。定式化の利点を実証する一連の実験を行う。
論文参考訳（メタデータ） (2024-06-04T17:58:18Z)
Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。 Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文参考訳（メタデータ） (2024-04-15T21:02:48Z)
Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文参考訳（メタデータ） (2024-02-15T18:46:24Z)
Distinguishing the Knowable from the Unknowable with Language Models [15.471748481627143]
地中真理確率の欠如において、与えられた不確実性を解き放つために、より大きなモデルが地中真理の代用として現れるような設定を探索する。凍結, 事前訓練されたモデルの埋め込みを訓練した小さな線形プローブが, トークンレベルでより大きなモデルがより自信を持つようになる時期を正確に予測することを示した。我々は,同じタスクにおいて非自明な精度を実現する,完全に教師なしの手法を提案する。
論文参考訳（メタデータ） (2024-02-05T22:22:49Z)
Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。本稿では,LLMのための不確実性分解フレームワークについて述べる。提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文参考訳（メタデータ） (2023-11-15T05:58:35Z)
Quantifying Uncertainty in Natural Language Explanations of Large Language Models [29.34960984639281]
大規模言語モデル (LLM) は、高スループット自然言語処理 (NLP) アプリケーションのための強力なツールとして、ますます使われている。生成された説明の不確かさを定量化するために、$textitVerbalized Uncertainty$と$textitProbing Uncertainty$という2つの新しいメトリクスを提案します。ベンチマークデータセットの実証分析により、言語化された不確実性は説明の信頼性の信頼できる見積りではないことが判明した。
論文参考訳（メタデータ） (2023-11-06T21:14:40Z)
FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。 FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。 Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文参考訳（メタデータ） (2023-10-18T16:27:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。