論文の概要: Multimedia Verification Through Multi-Agent Deep Research Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2507.04410v1
- Date: Sun, 06 Jul 2025 14:54:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.167603
- Title: Multimedia Verification Through Multi-Agent Deep Research Multimodal Large Language Models
- Title(参考訳): マルチエージェントディープリサーチ多モーダル大言語モデルによるマルチメディア検証
- Authors: Huy Hoan Le, Van Sy Thinh Nguyen, Thi Le Chi Dang, Vo Thanh Khang Nguyen, Truong Thanh Hung Nguyen, Hung Cao,
- Abstract要約: 本稿では,ACMMM25-Grand Challenge on Multimedia Verificationについて述べる。
マルチモーダル大言語モデル(MLLM)と特殊な検証ツールを組み合わせてマルチメディア誤情報を検出するマルチエージェント検証システムを開発した。
- 参考スコア(独自算出の注目度): 2.1770746401186933
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents our submission to the ACMMM25 - Grand Challenge on Multimedia Verification. We developed a multi-agent verification system that combines Multimodal Large Language Models (MLLMs) with specialized verification tools to detect multimedia misinformation. Our system operates through six stages: raw data processing, planning, information extraction, deep research, evidence collection, and report generation. The core Deep Researcher Agent employs four tools: reverse image search, metadata analysis, fact-checking databases, and verified news processing that extracts spatial, temporal, attribution, and motivational context. We demonstrate our approach on a challenge dataset sample involving complex multimedia content. Our system successfully verified content authenticity, extracted precise geolocation and timing information, and traced source attribution across multiple platforms, effectively addressing real-world multimedia verification scenarios.
- Abstract(参考訳): 本稿では,ACMMM25-Grand Challenge on Multimedia Verificationについて述べる。
マルチモーダル大言語モデル(MLLM)と特殊な検証ツールを組み合わせてマルチメディア誤情報を検出するマルチエージェント検証システムを開発した。
本システムでは, 生データ処理, 計画, 情報抽出, 深層調査, 証拠収集, レポート生成の6段階からなる。
コアとなるDeep Researcher Agentは、リバースイメージ検索、メタデータ分析、ファクトチェックデータベース、空間、時間、属性、モチベーションのコンテキストを抽出する検証されたニュース処理の4つのツールを使用している。
我々は、複雑なマルチメディアコンテンツを含む課題データセットのサンプルについて、我々のアプローチを実証する。
提案システムは,コンテンツ信頼性の検証,正確な位置情報とタイミング情報の抽出,複数プラットフォーム間のソース属性の追跡に成功し,実世界のマルチメディア検証シナリオに効果的に対処した。
関連論文リスト
- M$^{3}$D: A Multimodal, Multilingual and Multitask Dataset for Grounded Document-level Information Extraction [36.506500653677364]
我々はM$3$Dというマルチモーダル多言語マルチタスクデータセットを構築した。
ペア化された文書レベルのテキストとビデオを含み、マルチモーダル情報を豊かにする。
広く使われている2つの言語、すなわち英語と中国語をサポートしている。
論文 参考訳(メタデータ) (2024-12-05T10:00:58Z) - ForgerySleuth: Empowering Multimodal Large Language Models for Image Manipulation Detection [107.86009509291581]
我々はForgerySleuthを提案し、包括的ヒント融合を行い、改ざんされた領域を示すセグメンテーション出力を生成する。
ForgeryAnalysisの有効性を実証し,ForgerySleuthが既存手法の堅牢性,一般化性,説明可能性において著しく優れていたことを示す。
論文 参考訳(メタデータ) (2024-11-29T04:35:18Z) - Multi-modal Retrieval Augmented Multi-modal Generation: Datasets, Evaluation Metrics and Strong Baselines [63.22096609916707]
M$2$RAG(Multi-modal Retrieval Augmented Multi-modal Generation)は、基礎モデルのマルチモーダルWebコンテンツ処理を可能にする新しいタスクである。
潜在的な影響にもかかわらず、M$2$RAGは、包括的な分析と高品質なデータリソースを欠いている。
論文 参考訳(メタデータ) (2024-11-25T13:20:19Z) - A Survey of Multimodal Composite Editing and Retrieval [7.966265020507201]
この調査は、マルチモーダル複合検索に関する文献の総合的なレビューとしては初めてである。
画像テキスト合成編集、画像テキスト合成検索、その他のマルチモーダル合成検索をカバーしている。
アプリケーションシナリオ、メソッド、ベンチマーク、実験、将来の方向性を体系的に整理します。
論文 参考訳(メタデータ) (2024-09-09T08:06:50Z) - Detecting Misinformation in Multimedia Content through Cross-Modal Entity Consistency: A Dual Learning Approach [10.376378437321437]
クロスモーダルなエンティティの整合性を利用して、ビデオコンテンツから誤情報を検出するためのマルチメディア誤情報検出フレームワークを提案する。
以上の結果から,MultiMDは最先端のベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-08-16T16:14:36Z) - Multi-modal Stance Detection: New Datasets and Model [56.97470987479277]
テキストと画像からなるツイートに対するマルチモーダル姿勢検出について検討する。
我々は、シンプルで効果的なマルチモーダル・プロンプト・チューニング・フレームワーク(TMPT)を提案する。
TMPTはマルチモーダル姿勢検出における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-22T05:24:19Z) - Detecting and Grounding Multi-Modal Media Manipulation and Beyond [93.08116982163804]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。
DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。
本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文 参考訳(メタデータ) (2023-09-25T15:05:46Z) - Embrace Divergence for Richer Insights: A Multi-document Summarization Benchmark and a Case Study on Summarizing Diverse Information from News Articles [136.84278943588652]
同一イベントを含む複数のニュース記事において遭遇する多様な情報を要約する新しい課題を提案する。
この作業を容易にするために、多様な情報を特定するためのデータ収集スキーマの概要と、DiverseSummというデータセットをキュレートした。
データセットには245のニュース記事が含まれており、各ストーリーは10のニュース記事からなり、人間公認の参照と組み合わせられる。
論文 参考訳(メタデータ) (2023-09-17T20:28:17Z) - MHMS: Multimodal Hierarchical Multimedia Summarization [80.18786847090522]
視覚領域と言語領域を相互作用させることにより,マルチモーダル階層型マルチメディア要約(MHMS)フレームワークを提案する。
本手法は,ビデオとテキストのセグメンテーションと要約モジュールをそれぞれ含んでいる。
ドメイン間のアライメントの目的を最適な輸送距離で定式化し、代表とテキストの要約を生成する。
論文 参考訳(メタデータ) (2022-04-07T21:00:40Z) - MLM: A Benchmark Dataset for Multitask Learning with Multiple Languages
and Modalities [14.605385352491904]
データセットは、Webやデジタルアーカイブで遭遇したデータ上で複数のタスクを実行するアプリケーションを構築する研究者や開発者のために設計されている。
第2版では、EU加盟国の重み付けされたサンプルとともに、データの地理的表現サブセットを提供する。
論文 参考訳(メタデータ) (2020-08-14T14:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。