論文の概要: MERMAID: Memory-Enhanced Retrieval and Reasoning with Multi-Agent Iterative Knowledge Grounding for Veracity Assessment
- arxiv url: http://arxiv.org/abs/2601.22361v1
- Date: Thu, 29 Jan 2026 22:12:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.091357
- Title: MERMAID: Memory-Enhanced Retrieval and Reasoning with Multi-Agent Iterative Knowledge Grounding for Veracity Assessment
- Title(参考訳): MERMAID: 精度評価のためのマルチエージェント反復的知識基盤を用いたメモリ強化検索と推論
- Authors: Yupeng Cao, Chengyang He, Yangyang Yu, Ping Wang, K. P. Subbalakshmi,
- Abstract要約: 本稿では,検索処理と推論処理を密に結合するメモリ強調精度評価フレームワークを提案する。
MERMAIDはエージェント駆動検索、構造化知識表現、永続メモリモジュールをReason-Actionスタイルの反復プロセスに統合する。
我々は、3つのファクトチェックベンチマークと2つのクレーム検証データセットに対して複数のLLMを用いてMERMAIDを評価する。
- 参考スコア(独自算出の注目度): 8.649665560258702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Assessing the veracity of online content has become increasingly critical. Large language models (LLMs) have recently enabled substantial progress in automated veracity assessment, including automated fact-checking and claim verification systems. Typical veracity assessment pipelines break down complex claims into sub-claims, retrieve external evidence, and then apply LLM reasoning to assess veracity. However, existing methods often treat evidence retrieval as a static, isolated step and do not effectively manage or reuse retrieved evidence across claims. In this work, we propose MERMAID, a memory-enhanced multi-agent veracity assessment framework that tightly couples the retrieval and reasoning processes. MERMAID integrates agent-driven search, structured knowledge representations, and a persistent memory module within a Reason-Action style iterative process, enabling dynamic evidence acquisition and cross-claim evidence reuse. By retaining retrieved evidence in an evidence memory, the framework reduces redundant searches and improves verification efficiency and consistency. We evaluate MERMAID on three fact-checking benchmarks and two claim-verification datasets using multiple LLMs, including GPT, LLaMA, and Qwen families. Experimental results show that MERMAID achieves state-of-the-art performance while improving the search efficiency, demonstrating the effectiveness of synergizing retrieval, reasoning, and memory for reliable veracity assessment.
- Abstract(参考訳): オンラインコンテンツの正確性を評価することはますます重要になっている。
大規模言語モデル(LLM)は、ファクトチェックやクレーム検証システムを含む自動精度評価の大幅な進歩を実現した。
典型的な妥当性評価パイプラインは、複雑なクレームをサブステートに分解し、外部のエビデンスを取得し、LLM推論を適用して精度を評価する。
しかし、既存の手法は、証拠検索を静的で孤立したステップとして扱うことが多く、請求項全体で回収された証拠を効果的に管理したり再利用したりしない。
本研究では,検索処理と推論処理を密に結合するメモリ拡張型マルチエージェント妥当性評価フレームワークであるMERMAIDを提案する。
MERMAIDはエージェント駆動検索、構造化知識表現、永続メモリモジュールをReason-Actionスタイルの反復プロセスに統合し、動的なエビデンス取得とクロスステートメントの再利用を可能にする。
取得した証拠をエビデンスメモリに保持することにより、冗長な検索を削減し、検証効率と一貫性を向上させる。
GPT, LLaMA, Qwen ファミリーを含む複数の LLM を用いて, 3つのファクトチェックベンチマークと2つのクレーム検証データセット上で MERMAID を評価する。
実験結果から,MERMAIDは検索効率を向上し,検索の相乗化,推論,メモリの信頼性評価の有効性を示した。
関連論文リスト
- ExDR: Explanation-driven Dynamic Retrieval Enhancement for Multimodal Fake News Detection [23.87220484843729]
マルチモーダルのフェイクニュースは 深刻な社会的脅威を引き起こします
Dynamic Retrieval-Augmented Generationはキーワードベースの検索をトリガーすることで、有望なソリューションを提供する。
マルチモーダルフェイクニュース検出のための説明駆動動的検索生成フレームワークであるExDRを提案する。
論文 参考訳(メタデータ) (2026-01-22T10:10:06Z) - FaStfact: Faster, Stronger Long-Form Factuality Evaluations in LLMs [34.87719459551127]
textbfFaStfactは評価フレームワークであり、人間の評価と時間/時間効率を最大限に調整する。
FaStfactはまず、信頼に基づく事前検証と統合されたチャンクレベルのクレーム抽出を採用する。
検索と検証のために、クロールされたWebページから文書レベルの証拠を収集し、検証中に選択的に検索する。
論文 参考訳(メタデータ) (2025-10-13T19:00:15Z) - Veri-R1: Toward Precise and Faithful Claim Verification via Online Reinforcement Learning [53.05161493434908]
大規模言語モデル(LLM)によるクレーム検証は、その強力な推論能力と透過的な検証プロセスのため、近年注目を集めている。
我々は、LLMが検索エンジンと対話し、その計画、検索、推論行動を明確に形作る報酬信号を受け取ることができるオンライン強化学習フレームワークであるVeri-R1を紹介した。
実験の結果、Veri-R1は最大30%の精度で関節の精度を向上し、エビデンススコアを2倍にし、より大きなモデルを上回ることが示されている。
論文 参考訳(メタデータ) (2025-10-02T11:49:48Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - Retrieval-Augmented Generation by Evidence Retroactivity in LLMs [19.122314663040726]
Retroactive Retrieval-Augmented Generation(Retroactive Retrieval-Augmented Generation)は、レトロアクティブ推論パラダイムを構築するための新しいフレームワークである。
RetroRAGは証拠を修正・更新し、推論チェーンを正しい方向にリダイレクトする。
経験的評価は、RetroRAGが既存の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2025-01-07T08:57:42Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。