Fugu-MT 論文翻訳(概要): Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation

論文の概要: Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation

arxiv url: http://arxiv.org/abs/2505.21072v2
Date: Wed, 28 May 2025 13:05:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 15:04:28.116622
Title: Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation
Title（参考訳）: 信頼度を意識したFact-Checking the Output of Retrieval Augmented Generationのための不確実性定量化
Authors: Ekaterina Fadeeva, Aleksandr Rubashevskii, Roman Vashurin, Shehzaad Dhuliawala, Artem Shelmanov, Timothy Baldwin, Preslav Nakov, Mrinmaya Sachan, Maxim Panov,
Abstract要約: 本稿では,RAG出力における幻覚検出の新しい手法であるFRANQ(Fithfulness-based Retrieval Augmented Uncertainty Quantification)を紹介する。本稿では,事実性と忠実性の両方に注釈を付したQAデータセットを提案する。
参考スコア（独自算出の注目度）: 108.13261761812517
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) enhanced with external knowledge retrieval, an approach known as Retrieval-Augmented Generation (RAG), have shown strong performance in open-domain question answering. However, RAG systems remain susceptible to hallucinations: factually incorrect outputs that may arise either from inconsistencies in the model's internal knowledge or incorrect use of the retrieved context. Existing approaches often conflate factuality with faithfulness to the retrieved context, misclassifying factually correct statements as hallucinations if they are not directly supported by the retrieval. In this paper, we introduce FRANQ (Faithfulness-based Retrieval Augmented UNcertainty Quantification), a novel method for hallucination detection in RAG outputs. FRANQ applies different Uncertainty Quantification (UQ) techniques to estimate factuality based on whether a statement is faithful to the retrieved context or not. To evaluate FRANQ and other UQ techniques for RAG, we present a new long-form Question Answering (QA) dataset annotated for both factuality and faithfulness, combining automated labeling with manual validation of challenging examples. Extensive experiments on long- and short-form QA across multiple datasets and LLMs show that FRANQ achieves more accurate detection of factual errors in RAG-generated responses compared to existing methods.
Abstract（参考訳）: 大規模言語モデル (LLM) は外部知識検索によって強化され, 探索型拡張生成 (RAG) として知られるアプローチは, オープンドメイン質問応答において高い性能を示した。しかしながら、RAGシステムは幻覚の影響を受けやすいままであり、モデルの内部知識の不整合や、検索された文脈の誤用から生じる可能性のある事実的不正確な出力である。既存のアプローチは、しばしば、検索された文脈に忠実に事実を詳述し、検索が直接サポートされない場合、事実的に正しい文を幻覚として誤分類する。本稿では,RAG出力における幻覚検出の新しい手法であるFRANQ(Fithfulness-based Retrieval Augmented Uncertainty Quantification)を紹介する。 FRANQは、検索された文脈に忠実であるか否かに基づいて、事実性を推定するために異なる不確実性定量化(UQ)技術を適用している。 FRANQや他のRAGのためのUQ手法を評価するために,実感と忠実性の両方に注釈を付した新しい長文質問回答データセットを提示し,自動ラベル付けと課題事例のマニュアル検証を組み合わせた。複数のデータセットやLSMをまたいだ長期および短期QAに関する大規模な実験により、FRANQは既存の手法と比較して、RAG生成応答における事実エラーのより正確な検出を実現している。

関連論文リスト

RADIANT: Retrieval AugmenteD entIty-context AligNmenT -- Introducing RAG-ability and Entity-Context Divergence [5.066415370344766]
Retrieval-Augmented Generation (RAG) は、外部知識を生成プロセスに統合することにより、事実の精度を高める技術である。本稿では,得られた証拠と生成されたコンテンツとの相互作用を最適化するために,RAGとアライメントを組み合わせたフレームワークであるRadiantを紹介する。
論文参考訳（メタデータ） (2025-06-28T21:40:35Z)
Uncertainty Quantification in Retrieval Augmented Question Answering [57.05827081638329]
本稿では,QAモデルが備える通路の有効性を推定することで,QAモデルの不確実性を定量化する。我々は、目標QAモデルの通過効率を予測するために軽量ニューラルネットワークを訓練し、単純な情報理論のメトリクスが解の正しさをある程度予測できる一方で、より高価なサンプリングベースの手法を効率的に近似または上回ることを示す。
論文参考訳（メタデータ） (2025-02-25T11:24:52Z)
ParamMute: Suppressing Knowledge-Critical FFNs for Faithful Retrieval-Augmented Generation [91.20492150248106]
本研究では,不誠実な生成の背後にある内部メカニズムを解明し,不均等に活性化される中深度フィードフォワードネットワーク(FFN)のサブセットを同定する。本研究では,不信感関連FFNの活性化を抑制することにより,文脈的忠実度を向上させるフレームワークであるParametric Knowledge Mutingを提案する。実験結果から,ParamMuteはCoFaithfulQAと確立されたConFiQAベンチマークの両方の信頼度を大幅に向上し,パラメトリックメモリへの依存度を大幅に低下させることが示された。
論文参考訳（メタデータ） (2025-02-21T15:50:41Z)
SUGAR: Leveraging Contextual Confidence for Smarter Retrieval [28.552283701883766]
セマンティック不確実性誘導適応検索(SUGAR)について紹介する。我々は、文脈に基づくエントロピーを利用して、検索するかどうかを積極的に決定し、シングルステップとマルチステップの検索を更に決定する。実験の結果,意味的不確実性推定によって導かれる選択探索により,多様な質問応答タスクのパフォーマンスが向上し,より効率的な推論が達成された。
論文参考訳（メタデータ） (2025-01-09T01:24:59Z)
Atomic Fact Decomposition Helps Attributed Question Answering [30.75332718824254]
Attributed Question Answering (AQA)は、質問に対する信頼できる回答と信頼できる属性レポートを提供することを目的としている。本稿では,アトミックな事実分解に基づくRetrieval and Editingフレームワークを提案する。生成した長文の回答を、命令調整されたLSMによって分子節と原子事実に分解する。
論文参考訳（メタデータ） (2024-10-22T05:25:54Z)
DeepNote: Note-Centric Deep Retrieval-Augmented Generation [72.70046559930555]
Retrieval-Augmented Generation (RAG)は質問応答のための大規模言語モデル(LLM)における事実誤りと幻覚を緩和する我々は、ノート中心の適応検索により、知識ソースの奥深くで堅牢な探索を実現する適応RAGフレームワークであるDeepNoteを開発した。
論文参考訳（メタデータ） (2024-10-11T14:03:29Z)
Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文参考訳（メタデータ） (2024-10-09T22:53:48Z)
CONFLARE: CONFormal LArge language model REtrieval [0.0]
Retrieval-augmented Generation (RAG)フレームワークは、大規模言語モデル(LLM)が知識ベースから関連する情報を検索し、応答を生成するコンテキストに組み込むことを可能にする。 RAGは、検索が必要な情報を応答生成のコンテキストとして識別できない場合、有効な応答を保証しない。本稿では,RAGフレームワークにおける検索不確実性を定量化するために,共形予測を適用するための4段階のフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-04T02:58:21Z)
RQ-RAG: Learning to Refine Queries for Retrieval Augmented Generation [42.82192656794179]
大きな言語モデル(LLM)は優れた能力を示すが、不正確なあるいは幻覚反応を引き起こす傾向がある。この制限は、膨大な事前トレーニングデータセットに依存することに起因するため、目に見えないシナリオでのエラーの影響を受けやすい。 Retrieval-Augmented Generation (RAG) は、外部の関連文書を応答生成プロセスに組み込むことによって、この問題に対処する。
論文参考訳（メタデータ） (2024-03-31T08:58:54Z)
HiQA: A Hierarchical Contextual Augmentation RAG for Multi-Documents QA [13.000411428297813]
コンテンツにカスケードメタデータと複数ルート検索機構を統合した,高度な多文書質問応答(MDQA)フレームワークであるHiQAを提案する。また、MDQAの評価と研究を行うMasQAというベンチマークもリリースしました。
論文参考訳（メタデータ） (2024-02-01T02:24:15Z)
Learning to Filter Context for Retrieval-Augmented Generation [75.18946584853316]
生成モデルは、部分的にまたは完全に無関係な経路が与えられた出力を生成するために要求される。 FILCOは、語彙と情報理論のアプローチに基づいて有用なコンテキストを特定する。テスト時に検索したコンテキストをフィルタリングできるコンテキストフィルタリングモデルをトレーニングする。
論文参考訳（メタデータ） (2023-11-14T18:41:54Z)
FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。 FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。 Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文参考訳（メタデータ） (2023-10-18T16:27:49Z)
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文参考訳（メタデータ） (2023-09-27T14:44:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。