論文の概要: Diagnosing LLM Arbitration Behavior over Pre-evidence Epistemic States in RAG-based Fact-Checking
- arxiv url: http://arxiv.org/abs/2606.01120v2
- Date: Fri, 05 Jun 2026 05:09:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.286047
- Title: Diagnosing LLM Arbitration Behavior over Pre-evidence Epistemic States in RAG-based Fact-Checking
- Title(参考訳): RAGを用いたFact-Checkingにおける前立腺てんかん状態におけるLDM偏位挙動の診断
- Authors: Yuxi Sun, Wenbo Shang, Wei Gao, Xin Huang, Jing Ma,
- Abstract要約: RAGベースのファクトチェックでは、LLMは、検索された証拠に対して与えられたクレームをチェックするための検証器として、ますます使われている。
我々は,LSM検証を4つのてんかん状態に階層化する診断テストベッドであるtextscPAVE(emphPrior-Aware Verifier Evaluation)を紹介する。
実験により、現実のRAGベースのファクトチェックアプリケーションにおいて、検証者選択の重要性が浮かび上がっている。
- 参考スコア(独自算出の注目度): 14.164769475625391
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In RAG-based fact-checking, LLMs are increasingly used as verifiers to check given claims against retrieved evidence. Their parametric knowledge can induce pre-evidence tendencies that may conflict with the retrieved context, yet existing evaluation frameworks do not characterize such prior-context discrepancy or measure how verifiers arbitrate between parametric and contextual signals. We introduce \textsc{PAVE} (\emph{Prior-Aware Verifier Evaluation}), a diagnostic testbed that stratifies an LLM verifier into four epistemic states based on the correctness and confidence of its pre-evidence prior and evaluates its arbitration behavior on this new benchmark, i.e., whether it persists in correct prior under misleading evidence, and whether it corrects wrong prior when accurate evidence is provided. Experiments across seven LLMs reveal unreliable and highly model-dependent prior-context arbitration, highlighting the importance of verifier selection for real-world RAG-based fact-checking applications. Based on these findings, we propose a lightweight JSD-based test-time arbitration method that improves factual reliability without modifying the underlying model, achieving competitive performance across diverse LLM families.
- Abstract(参考訳): RAGベースのファクトチェックでは、LLMは、検索された証拠に対して与えられたクレームをチェックするための検証器として、ますます使われている。
彼らのパラメトリック知識は、取得した文脈と矛盾する事前証拠傾向を誘発することができるが、既存の評価フレームワークは、そのような事前コンテキストの相違を特徴づけたり、検証者がパラメトリック信号と文脈信号の間でどのように仲裁するかを測ったりしない。
本稿では, LLM 検証を 4 つのてんかん状態に階層化する診断テストベッドである \textsc{PAVE} (\emph{Prior-Aware Verifier Evaluation}) を紹介する。
7つのLCMを対象とした実験では、信頼できない、モデルに依存した事前コンテキストの仲裁が示され、現実のRAGベースのファクトチェックアプリケーションにおいて検証者選択の重要性が強調された。
そこで本研究では,JSDに基づく簡易なテスト時間調停手法を提案する。
関連論文リスト
- Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents? [61.49434544687523]
本稿では,エージェント環境におけるきめ細かい故障検出を目的としたメタ評価ベンチマークREFLECTを紹介する。
REFLECTはプロセスレベルの障害モードと結果レベルの障害モードの詳細な分類を定義し、制御および局所的な介入を実行することでインスタンス化する。
私たちの実験では、最高のパフォーマンスモデルでさえ、推論、ツール使用、レポート品質の失敗に対して、全体的なアキュラシーを55%以下に達成しています。
論文 参考訳(メタデータ) (2026-05-18T23:55:08Z) - Trust but Verify: Introducing DAVinCI -- A Framework for Dual Attribution and Verification in Claim Inference for Language Models [53.279391576560755]
大規模言語モデル(LLM)は、広範囲のNLPタスクにおいて顕著な流速と汎用性を示してきたが、実際的な不正確さと制限が伴う傾向にある。
これは、信頼と妥当性が最優先される医療、法律、科学コミュニケーションといった、高リスク領域に重大なリスクをもたらす。
LLM出力の事実的信頼性と解釈可能性を高めるために設計されたDAVinCI - Dual Attribution and Verificationフレームワークを紹介する。
論文 参考訳(メタデータ) (2026-04-23T01:37:50Z) - PAVE: Premise-Aware Validation and Editing for Retrieval-Augmented LLMs [8.082352336629816]
PAVEは、根拠に基づく質問応答のための推論時検証層である。
検索されたコンテキストを質問条件のアトミックな事実に分解し、回答をドラフトし、抽出された前提によってそのドラフトがどの程度うまくサポートされているかをスコアし、ファイナライズ前に低サポート出力を更新する。
論文 参考訳(メタデータ) (2026-03-21T06:23:21Z) - Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification [60.18369393468405]
既存の検証器は通常、ドメイン知識の欠如と限られた校正のために性能が劣る。
GLEANは専門家によって計算されたプロトコルをトラジェクトリインフォームされ、よく校正された正当性信号にコンパイルする。
我々は,MIMIC-IVデータセットから得られた3つの疾患の薬物的臨床診断でGLEANを実証的に検証した。
論文 参考訳(メタデータ) (2026-03-03T09:36:43Z) - Retrieve-Refine-Calibrate: A Framework for Complex Claim Fact-Checking [32.6738019397553]
大規模言語モデル(LLM)に基づくRetrieve-Refine-Calibrate(RRC)フレームワークを提案する。
特に、このフレームワークは、まずクレームに記載されたエンティティを特定し、それらに関連する証拠を検索する。
そして、無関係な情報を減らすためのクレームに基づいて、回収された証拠を精査する。
最後に、信頼性の低い予測を再評価することで検証プロセスを校正する。
論文 参考訳(メタデータ) (2026-01-23T08:48:52Z) - Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking [64.97768177044355]
大規模言語モデル(LLM)は、現実のファクトチェックシステムにますます多くデプロイされている。
FactArenaは、完全に自動化されたアリーナスタイルの評価フレームワークである。
本研究では,静的クレーム検証精度とエンドツーエンドのファクトチェック能力の相違点を明らかにした。
論文 参考訳(メタデータ) (2026-01-06T02:51:56Z) - CRAVE: A Conflicting Reasoning Approach for Explainable Claim Verification Using LLMs [15.170312674645535]
CRAVE は、説明可能なクレーム VErification に対する Conflicting Reasoning Approach である。
大規模な言語モデルによって推論される矛盾する理性に基づいて、複雑なクレームを検証することができる。
CRAVEは最先端の手法よりもはるかに優れた性能を実現している。
論文 参考訳(メタデータ) (2025-04-21T07:20:31Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - From Relevance to Utility: Evidence Retrieval with Feedback for Fact Verification [118.03466985807331]
我々は、FVの関連性よりも、クレーム検証者が取得した証拠から導出する実用性に焦点を当てる必要があると論じる。
本稿では,エビデンス検索プロセスの最適化に,クレーム検証器からのフィードバックを取り入れたフィードバックベースのエビデンス検索手法(FER)を提案する。
論文 参考訳(メタデータ) (2023-10-18T02:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。