論文の概要: Use of Retrieval-Augmented Large Language Model Agent for Long-Form COVID-19 Fact-Checking
- arxiv url: http://arxiv.org/abs/2512.00007v1
- Date: Fri, 10 Oct 2025 15:10:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.375392
- Title: Use of Retrieval-Augmented Large Language Model Agent for Long-Form COVID-19 Fact-Checking
- Title(参考訳): 長期型COVID-19 Fact-Checkingにおける検索型大規模言語モデルエージェントの利用
- Authors: Jingyi Huang, Yuyi Yang, Mengmeng Ji, Charles Alba, Sheng Zhang, Ruopeng An,
- Abstract要約: 本研究では,大規模言語モデルと検索拡張生成を組み合わせたエージェントシステムSAFEを提案する。
SAFEには、クレーム抽出のためのエージェントとクレーム検証のためのエージェントの2つが含まれている。
拡張版であるSAFELOTR-RAG + SRAGは、Self-RAGを組み込んでクエリ書き換えによる検索を洗練している。
- 参考スコア(独自算出の注目度): 2.7768742946084077
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The COVID-19 infodemic calls for scalable fact-checking solutions that handle long-form misinformation with accuracy and reliability. This study presents SAFE (system for accurate fact extraction and evaluation), an agent system that combines large language models with retrieval-augmented generation (RAG) to improve automated fact-checking of long-form COVID-19 misinformation. SAFE includes two agents - one for claim extraction and another for claim verification using LOTR-RAG, which leverages a 130,000-document COVID-19 research corpus. An enhanced variant, SAFE (LOTR-RAG + SRAG), incorporates Self-RAG to refine retrieval via query rewriting. We evaluated both systems on 50 fake news articles (2-17 pages) containing 246 annotated claims (M = 4.922, SD = 3.186), labeled as true (14.1%), partly true (14.4%), false (27.0%), partly false (2.2%), and misleading (21.0%) by public health professionals. SAFE systems significantly outperformed baseline LLMs in all metrics (p < 0.001). For consistency (0-1 scale), SAFE (LOTR-RAG) scored 0.629, exceeding both SAFE (+SRAG) (0.577) and the baseline (0.279). In subjective evaluations (0-4 Likert scale), SAFE (LOTR-RAG) also achieved the highest average ratings in usefulness (3.640), clearness (3.800), and authenticity (3.526). Adding SRAG slightly reduced overall performance, except for a minor gain in clearness. SAFE demonstrates robust improvements in long-form COVID-19 fact-checking by addressing LLM limitations in consistency and explainability. The core LOTR-RAG design proved more effective than its SRAG-augmented variant, offering a strong foundation for scalable misinformation mitigation.
- Abstract(参考訳): 新型コロナウイルス(COVID-19)のインフォデミック(インフォデミック)は、長期的な誤報を精度と信頼性で処理する、スケーラブルなファクトチェックソリューションを求めている。
本研究では,大規模言語モデルと検索強化生成(RAG)を組み合わせたエージェントシステムであるSAFE(精度の高い事実抽出・評価システム)を提示し,長期にわたる新型コロナウイルスの誤情報の自動ファクトチェックを改善する。
SAFEには2つのエージェントが含まれており、1つはクレーム抽出用、もう1つはLOTR-RAGを用いたクレーム検証用である。
拡張版であるSAFE (LOTR-RAG + SRAG)は、Self-RAGを組み込んでクエリ書き換えによる検索を洗練している。
筆者らは,246件の注釈付きクレーム(M=4.922,SD=3.186),真(14.1%),真(14.4%),偽(27.0%),偽(2.2%),公衆衛生専門家による誤認(21.0%)を含む50件の偽ニュース記事(2-17ページ)について,両システムを評価した。
SAFEシステムは全ての指標においてベースラインLLMよりも有意に優れていた(p < 0.001)。
一貫性(0-1スケール)のため、SAFE(LOTR-RAG)は0.629点を獲得し、SAFE(+SRAG)0.577点とベースライン0.279点を上回った。
主観評価(0-4 Likert scale)では、SAFE(LOTR-RAG)が有用性(3.640)、クリア性(3.800)、認証性(3.526)で最高評価を得た。
SRAGを追加することで全体的な性能はわずかに低下した。
SAFEは、一貫性と説明可能性のLLM制限に対処することで、長期にわたるCOVID-19ファクトチェックの堅牢な改善を示す。
コアのLOTR-RAG設計はSRAGの拡張型よりも効果的であることが証明され、スケーラブルな誤情報を緩和するための強力な基盤となった。
関連論文リスト
- Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Fact or Facsimile? Evaluating the Factual Robustness of Modern Retrievers [34.31192184496381]
デンスレトリバーとリランカーは、検索強化世代(RAG)パイプラインの中心である。
我々は,これらのコンポーネントがベースとする大規模言語モデル(LLM)をどの程度の事実的能力で継承するか,あるいは失うかを評価する。
全ての埋め込みモデルにおいて、クエリと正しい完了の間のコサイン類似度スコアは、間違ったものよりも著しく高い。
論文 参考訳(メタデータ) (2025-08-28T04:13:51Z) - Unblocking Fine-Grained Evaluation of Detailed Captions: An Explaining AutoRater and Critic-and-Revise Pipeline [58.832237984587664]
VNLI-Critiqueは,自動文レベルの事実性分類と批判生成のためのモデルである。
1) VNLI-CritiqueはM-HalDetectベンチマークの最先端性能によって検証された堅牢な一般化を実証し、(2) VNLI-CritiqueによるDOCCI-Critique向けAutoRaterは信頼性の高いVLMランキングを提供し、人間の事実性判断と優れた整合性を示す。
論文 参考訳(メタデータ) (2025-06-09T10:57:26Z) - Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。
実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。
RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文 参考訳(メタデータ) (2025-04-17T16:46:11Z) - MES-RAG: Bringing Multi-modal, Entity-Storage, and Secure Enhancements to RAG [65.0423152595537]
本稿では,エンティティ固有のクエリ処理を強化し,正確でセキュアで一貫した応答を提供するMES-RAGを提案する。
MES-RAGは、データアクセスの前に保護を適用してシステムの整合性を確保するための積極的なセキュリティ対策を導入している。
実験の結果,MES-RAGは精度とリコールの両方を著しく改善し,質問応答の安全性と有用性を向上する効果が示された。
論文 参考訳(メタデータ) (2025-03-17T08:09:42Z) - Worse than Zero-shot? A Fact-Checking Dataset for Evaluating the Robustness of RAG Against Misleading Retrievals [5.605770511387228]
RAGuardは、不正検索に対するRAGシステムの堅牢性を評価する最初のベンチマークである。
合成ノイズに依存する以前のベンチマークとは異なり、ファクトチェックデータセットは自然に発生する誤報をキャプチャする。
論文 参考訳(メタデータ) (2025-02-22T05:50:15Z) - Enhancing Large Language Models with Domain-specific Retrieval Augment Generation: A Case Study on Long-form Consumer Health Question Answering in Ophthalmology [34.82874325860935]
医学における大規模言語モデル(LLM)は、幻覚的証拠に基づく証拠を欠いた応答を生成する可能性がある。
我々は,7万件の眼科用文書を用いたRAGパイプラインを開発し,推測時間にLCMを増大させるために関連文書を検索した。
医療従事者10名を対象に,RAGの有無を問う質問100件において, LLMの500件以上の基準を含む回答を評価した。
論文 参考訳(メタデータ) (2024-09-20T21:06:00Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。