論文の概要: PAVE: Premise-Aware Validation and Editing for Retrieval-Augmented LLMs
- arxiv url: http://arxiv.org/abs/2603.20673v1
- Date: Sat, 21 Mar 2026 06:23:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.032366
- Title: PAVE: Premise-Aware Validation and Editing for Retrieval-Augmented LLMs
- Title(参考訳): PAVE: 検索可能なLLMのためのプリミズ対応検証と編集
- Authors: Tianyi Huang, Caden Yang, Emily Yin, Eric Wang, Michael Zhang,
- Abstract要約: PAVEは、根拠に基づく質問応答のための推論時検証層である。
検索されたコンテキストを質問条件のアトミックな事実に分解し、回答をドラフトし、抽出された前提によってそのドラフトがどの程度うまくサポートされているかをスコアし、ファイナライズ前に低サポート出力を更新する。
- 参考スコア(独自算出の注目度): 8.082352336629816
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Retrieval-augmented language models can retrieve relevant evidence yet still commit to answers before explicitly checking whether the retrieved context supports the conclusion. We present PAVE (Premise-Grounded Answer Validation and Editing), an inference-time validation layer for evidence-grounded question answering. PAVE decomposes retrieved context into question-conditioned atomic facts, drafts an answer, scores how well that draft is supported by the extracted premises, and revises low-support outputs before finalization. The resulting trace makes answer commitment auditable at the level of explicit premises, support scores, and revision decisions. In controlled ablations with a fixed retriever and backbone, PAVE outperforms simpler post-retrieval baselines in two evidence-grounded QA settings, with the largest gain reaching 32.7 accuracy points on a span-grounded benchmark. We view these findings as proof-of-concept evidence that explicit premise extraction plus support-gated revision can strengthen evidence-grounded consistency in retrieval-augmented LLM systems.
- Abstract(参考訳): Retrieval-augmented言語モデルは、検索したコンテキストが結論をサポートするかどうかを明示的にチェックする前に、関連するエビデンスを取得することができる。
提案するPAVE(Premise-Grounded Answer Validation and Editing)は,根拠に基づく質問応答のための推論時間検証層である。
PAVEは、検索したコンテキストを質問条件のアトミックな事実に分解し、回答をドラフトし、抽出された前提によってそのドラフトがどの程度うまくサポートされているかをスコアし、ファイナライズ前に低サポート出力を更新する。
結果として得られたトレースは、明確な前提、サポートスコア、リビジョン決定のレベルにおいて、回答のコミットメントを監査可能にします。
固定されたレトリバーとバックボーンによる制御された改善では、PAVEは2つのエビデンスグラウンドのQA設定においてより単純な検索後のベースラインを上回り、最大のゲインはスパングラウンドのベンチマークで32.7の精度ポイントに達した。
我々は,これらの知見を,明示的な前提抽出とサポート付きリビジョンが,検索強化LLMシステムにおけるエビデンス・グラウンドの整合性を高めることができるという概念実証として捉えている。
関連論文リスト
- CounterRefine: Answer-Conditioned Counterevidence Retrieval for Inference-Time Knowledge Repair in Factual Question Answering [1.1279808969568255]
検索地上質問応答のための軽量な推論時間修復層であるCounterRefineを提案する。
CounterRefineは、最初に検索されたエビデンスから短い回答を生成し、その後、追加のサポートを集め、そのドラフト回答に条件付けられたフォローアップクエリと矛盾するエビデンスを集めます。
完全なSimpleQAベンチマークでは、CounterRefineは一致したGPT-5ベースラインRAGを5.8ポイント改善し、73.1%の精度で、報告された1ショットのGPT-5.4スコアを約40ポイント上回る。
論文 参考訳(メタデータ) (2026-03-17T03:27:25Z) - Retrieve-Refine-Calibrate: A Framework for Complex Claim Fact-Checking [32.6738019397553]
大規模言語モデル(LLM)に基づくRetrieve-Refine-Calibrate(RRC)フレームワークを提案する。
特に、このフレームワークは、まずクレームに記載されたエンティティを特定し、それらに関連する証拠を検索する。
そして、無関係な情報を減らすためのクレームに基づいて、回収された証拠を精査する。
最後に、信頼性の低い予測を再評価することで検証プロセスを校正する。
論文 参考訳(メタデータ) (2026-01-23T08:48:52Z) - Look As You Think: Unifying Reasoning and Visual Evidence Attribution for Verifiable Document RAG via Reinforcement Learning [55.232400251303794]
Look As You Think (LAT)は、モデルをトレーニングし、一貫した帰属性を持った検証可能な推論パスを生成するための強化学習フレームワークである。
LATはシングルイメージとマルチイメージの両方でバニラモデルを一貫して改善し、平均ゲインは8.23%、IoU@0.5では47.0%となる。
論文 参考訳(メタデータ) (2025-11-15T02:50:23Z) - VeriCite: Towards Reliable Citations in Retrieval-Augmented Generation via Rigorous Verification [107.75781898355562]
証拠を厳格に検証し,回答の帰属性を高めるために設計された,VeriCiteと呼ばれる新しいフレームワークを紹介する。
我々は,5つのオープンソースLCMと4つのデータセットを対象とした実験を行い,VeriCiteが回答の正しさを維持しつつ,引用品質を大幅に向上できることを実証した。
論文 参考訳(メタデータ) (2025-10-13T13:38:54Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - SUCEA: Reasoning-Intensive Retrieval for Adversarial Fact-checking through Claim Decomposition and Editing [30.84752573088322]
敵の主張は、人間が事実確認システムに挑戦するために意図的に設計されている。
本稿では,元来の主張を言い換える訓練のない手法を提案する。
提案手法は,検索と包含ラベルの精度を大幅に向上させ,強力なクレーム分割ベースラインを4つ備えた。
論文 参考訳(メタデータ) (2025-06-05T02:58:15Z) - Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation [108.13261761812517]
本稿では,RAG出力における幻覚検出の新しい手法であるFRANQ(Fithfulness-based Retrieval Augmented Uncertainty Quantification)を紹介する。
本稿では,事実性と忠実性の両方に注釈を付したQAデータセットを提案する。
論文 参考訳(メタデータ) (2025-05-27T11:56:59Z) - Atomic Fact Decomposition Helps Attributed Question Answering [29.67882325906939]
Attributed Question Answering (AQA)は、質問に対する信頼できる回答と信頼できる属性レポートを提供することを目的としている。
本稿では,アトミックな事実分解に基づくRetrieval and Editingフレームワークを提案する。
生成した長文の回答を、命令調整されたLSMによって分子節と原子事実に分解する。
論文 参考訳(メタデータ) (2024-10-22T05:25:54Z) - Contrastive Learning to Improve Retrieval for Real-world Fact Checking [84.57583869042791]
ファクト・チェッキング・リランカ(Contrastive Fact-Checking Reranker, CFR)を提案する。
我々はAVeriTeCデータセットを活用し、証拠文書からの人間による回答とクレームのサブクエストを注釈付けする。
データセットの精度は6%向上した。
論文 参考訳(メタデータ) (2024-10-07T00:09:50Z) - From Relevance to Utility: Evidence Retrieval with Feedback for Fact Verification [118.03466985807331]
我々は、FVの関連性よりも、クレーム検証者が取得した証拠から導出する実用性に焦点を当てる必要があると論じる。
本稿では,エビデンス検索プロセスの最適化に,クレーム検証器からのフィードバックを取り入れたフィードバックベースのエビデンス検索手法(FER)を提案する。
論文 参考訳(メタデータ) (2023-10-18T02:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。