論文の概要: RAMA: Retrieval-Augmented Multi-Agent Framework for Misinformation Detection in Multimodal Fact-Checking
- arxiv url: http://arxiv.org/abs/2507.09174v1
- Date: Sat, 12 Jul 2025 07:46:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.654214
- Title: RAMA: Retrieval-Augmented Multi-Agent Framework for Misinformation Detection in Multimodal Fact-Checking
- Title(参考訳): RAMA:Multimodal Fact-Checkingにおける誤情報検出のための検索強化マルチエージェントフレームワーク
- Authors: Shuo Yang, Zijian Yu, Zhenzhe Ying, Yuqin Dai, Guoqing Wang, Jun Lan, Jinfeng Xu, Jinze Li, Edith C. H. Ngai,
- Abstract要約: RAMAは、マルチメディアの誤情報を検証するために設計された新しい検索拡張マルチエージェントフレームワークである。
RAMAには,(1)マルチモーダルクレームを正確なWeb検索クエリに変換する戦略的クエリの定式化,(2)多様な権威ソースからの相互検証証拠の集約,(3)マルチエージェントアンサンブルアーキテクチャの3つの革新が含まれている。
- 参考スコア(独自算出の注目度): 15.160356035522609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid proliferation of multimodal misinformation presents significant challenges for automated fact-checking systems, especially when claims are ambiguous or lack sufficient context. We introduce RAMA, a novel retrieval-augmented multi-agent framework designed for verifying multimedia misinformation. RAMA incorporates three core innovations: (1) strategic query formulation that transforms multimodal claims into precise web search queries; (2) cross-verification evidence aggregation from diverse, authoritative sources; and (3) a multi-agent ensemble architecture that leverages the complementary strengths of multiple multimodal large language models and prompt variants. Extensive experiments demonstrate that RAMA achieves superior performance on benchmark datasets, particularly excelling in resolving ambiguous or improbable claims by grounding verification in retrieved factual evidence. Our findings underscore the necessity of integrating web-based evidence and multi-agent reasoning for trustworthy multimedia verification, paving the way for more reliable and scalable fact-checking solutions. RAMA will be publicly available at https://github.com/kalendsyang/RAMA.git.
- Abstract(参考訳): マルチモーダル誤報の急速な拡散は、特にクレームが曖昧であるか、あるいは十分な文脈が欠如している場合に、自動化された事実チェックシステムにとって重要な課題となる。
マルチメディア誤情報を検証するための新しい検索拡張型マルチエージェントフレームワークであるRAMAを紹介する。
RAMAは,(1)マルチモーダルなクレームを正確なWeb検索クエリに変換する戦略的クエリ定式化,(2)多様な権威ソースからの相互検証エビデンスアグリゲーション,(3)マルチモーダルな大規模言語モデルの相補的強みを利用したマルチエージェントアンサンブルアーキテクチャ,の3つの革新を取り入れている。
大規模な実験により、RAMAはベンチマークデータセット上での優れた性能、特に不明瞭なクレームや不正なクレームの解決に優れていることが実証された。
我々の研究は、信頼性の高いマルチメディア検証のためのWebベースのエビデンスとマルチエージェント推論の統合の必要性を浮き彫りにして、より信頼性が高くスケーラブルなファクトチェックソリューションの道を開いた。
RAMAはhttps://github.com/kalendsyang/RAMA.gitで公開される。
関連論文リスト
- Rethinking Information Synthesis in Multimodal Question Answering A Multi-Agent Perspective [42.832839189236694]
テキスト,テーブル,画像にまたがるマルチモーダル入力のためのマルチエージェントQAフレームワークであるMAMMQAを提案する。
このシステムには2つのVisual Language Model (VLM)エージェントと1つのテキストベースLarge Language Model (LLM)エージェントが含まれる。
多様なマルチモーダルQAベンチマークの実験により、我々の協調型マルチエージェントフレームワークは、精度と堅牢性の両方で既存のベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-05-27T07:23:38Z) - Benchmarking Retrieval-Augmented Multimomal Generation for Document Question Answering [42.468210353582755]
Document Visual Question Answering (DocVQA)は、長いマルチモーダル文書の処理において2つの課題に直面している。
現在の文書検索拡張生成法(DocRAG)はテキスト中心のアプローチによって制限されている。
MMDocRAGは,多ページのクロスモーダルエビデンスチェーンを持つ4,055のエキスパートアノテーション付きQAペアを特徴とする総合ベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T09:52:57Z) - MAMM-Refine: A Recipe for Improving Faithfulness in Generation with Multi-Agent Collaboration [63.31211701741323]
我々はマルチエージェント・マルチモデル推論を生成にまで拡張し、特に改良による忠実度の向上を図っている。
我々は,各サブタスクに対して固有の評価を設計し,マルチエージェント(複数インスタンス)とマルチモデル(多変数LPMタイプ)の両方がエラー検出やクオリティクスに有効であることを示す。
我々はこれらの知見を、マルチエージェント・マルチモデル・リファインメント(MAMM-Refinement)と呼ばれる最終的な"レシピ"に統合し、マルチエージェント・マルチモデルコラボレーションがパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-19T14:46:53Z) - Knowledge-Aware Iterative Retrieval for Multi-Agent Systems [0.0]
本稿では,新しい大規模言語モデル (LLM) によるエージェントフレームワークを提案する。
動的に進化する知識を活用することで、クエリを反復的に洗練し、文脈的証拠をフィルタリングする。
提案システムは、更新されたコンテキストの競合的および協調的な共有をサポートする。
論文 参考訳(メタデータ) (2025-03-17T15:27:02Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.30364248231053]
本稿では,M2RAG(Multi-Modal Retrieval-Augmented Generation)を紹介する。
M2RAGはマルチモーダル大言語モデル(MLLM)の有効性を評価するためのベンチマークである。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation [2.549112678136113]
Retrieval-Augmented Generation (RAG)は、外部の動的情報を統合することで問題を軽減し、現実のグラウンドを改善する。
クロスモーダルアライメントと推論は、単調なRAG以上の難題をもたらす。
この調査は、より有能で信頼性の高いAIシステムを開発するための基盤となる。
論文 参考訳(メタデータ) (2025-02-12T22:33:41Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - Multi-modal Retrieval Augmented Multi-modal Generation: Datasets, Evaluation Metrics and Strong Baselines [63.22096609916707]
M$2$RAG(Multi-modal Retrieval Augmented Multi-modal Generation)は、基礎モデルのマルチモーダルWebコンテンツ処理を可能にする新しいタスクである。
潜在的な影響にもかかわらず、M$2$RAGは、包括的な分析と高品質なデータリソースを欠いている。
論文 参考訳(メタデータ) (2024-11-25T13:20:19Z) - Detecting and Grounding Multi-Modal Media Manipulation and Beyond [93.08116982163804]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。
DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。
本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文 参考訳(メタデータ) (2023-09-25T15:05:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。