論文の概要: T^2Agent A Tool-augmented Multimodal Misinformation Detection Agent with Monte Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2505.19768v1
- Date: Mon, 26 May 2025 09:50:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.340573
- Title: T^2Agent A Tool-augmented Multimodal Misinformation Detection Agent with Monte Carlo Tree Search
- Title(参考訳): T^2Agent モンテカルロ木探索による多モード誤情報検出ツール
- Authors: Xing Cui, Yueying Zou, Zekun Li, Peipei Li, Xinyuan Xu, Xuannan Liu, Huaibo Huang, Ran He,
- Abstract要約: 多重モーダル誤報は、しばしば混合偽造源から発生し、動的推論と適応的検証を必要とする。
我々はモンテカルロ木探索を用いたツールキットを組み込んだ新しい誤情報検出剤T2Agentを提案する。
大規模な実験により、T2Agentは、混在するマルチモーダル誤報ベンチマークにおいて、既存のベースラインを一貫して上回っていることが示されている。
- 参考スコア(独自算出の注目度): 51.91311158085973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world multimodal misinformation often arises from mixed forgery sources, requiring dynamic reasoning and adaptive verification. However, existing methods mainly rely on static pipelines and limited tool usage, limiting their ability to handle such complexity and diversity. To address this challenge, we propose T2Agent, a novel misinformation detection agent that incorporates an extensible toolkit with Monte Carlo Tree Search (MCTS). The toolkit consists of modular tools such as web search, forgery detection, and consistency analysis. Each tool is described using standardized templates, enabling seamless integration and future expansion. To avoid inefficiency from using all tools simultaneously, a Bayesian optimization-based selector is proposed to identify a task-relevant subset. This subset then serves as the action space for MCTS to dynamically collect evidence and perform multi-source verification. To better align MCTS with the multi-source nature of misinformation detection, T2Agent extends traditional MCTS with multi-source verification, which decomposes the task into coordinated subtasks targeting different forgery sources. A dual reward mechanism containing a reasoning trajectory score and a confidence score is further proposed to encourage a balance between exploration across mixed forgery sources and exploitation for more reliable evidence. We conduct ablation studies to confirm the effectiveness of the tree search mechanism and tool usage. Extensive experiments further show that T2Agent consistently outperforms existing baselines on challenging mixed-source multimodal misinformation benchmarks, demonstrating its strong potential as a training-free approach for enhancing detection accuracy. The code will be released.
- Abstract(参考訳): 実世界のマルチモーダル誤報は、しばしば混合偽造源から発生し、動的推論と適応的検証を必要とする。
しかし、既存のメソッドは主に静的パイプラインとツールの使用制限に依存しており、そのような複雑さと多様性を扱う能力は制限されている。
この課題に対処するため,モンテカルロ木探索 (MCTS) で拡張可能なツールキットを組み込んだ新しい誤情報検出エージェントであるT2Agentを提案する。
このツールキットは、Web検索、偽造検出、一貫性分析などのモジュラーツールで構成されている。
各ツールは標準化されたテンプレートを使って記述され、シームレスな統合と将来の拡張を可能にしている。
タスク関連サブセットを特定するために,ベイズ最適化に基づくセレクタを提案する。
このサブセットはMCTSが証拠を動的に収集し、マルチソース検証を行うためのアクション空間として機能する。
T2Agentは、MCTSと誤情報検出のマルチソース特性をよりよく整合させるために、従来のMCTSを拡張して、異なる偽情報ソースをターゲットとするコーディネートサブタスクにタスクを分解する。
推論軌道スコアと信頼スコアを含む二重報酬機構が提案され、混合偽造源間の探索とより信頼性の高い証拠の活用のバランスが促進される。
本研究は,木探索機構の有効性とツール使用量を検証するためのアブレーション研究である。
さらに大規模な実験では、T2Agentが既存のベースラインを、混在するマルチモーダルの誤報ベンチマークで一貫して上回っており、検出精度を高めるためのトレーニング不要なアプローチとして、その強い可能性を実証している。
コードはリリースされます。
関連論文リスト
- Iterative Tool Usage Exploration for Multimodal Agents via Step-wise Preference Tuning [69.32855772335624]
コントローラ、例えば視覚言語モデルと外部ツールを統合するマルチモーダルエージェントは、複雑なマルチモーダルタスクに対処する際、顕著な能力を示した。
これらのエージェントを訓練するための既存のアプローチは、広範囲なヒューマン・アノテートされたタスク・アンサー・ペアとツール・トラジェクトリに依存している。
本研究では,事前に収集したデータのないマルチモーダルエージェント,すなわち SPORT の反復ツール利用探索手法を提案する。
Sportには、タスク合成、ステップサンプリング、ステップ検証、優先度調整の4つの反復的なコンポーネントがある。
論文 参考訳(メタデータ) (2025-04-30T12:01:27Z) - Knowledge-Aware Iterative Retrieval for Multi-Agent Systems [0.0]
本稿では,新しい大規模言語モデル (LLM) によるエージェントフレームワークを提案する。
動的に進化する知識を活用することで、クエリを反復的に洗練し、文脈的証拠をフィルタリングする。
提案システムは、更新されたコンテキストの競合的および協調的な共有をサポートする。
論文 参考訳(メタデータ) (2025-03-17T15:27:02Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - ForgerySleuth: Empowering Multimodal Large Language Models for Image Manipulation Detection [107.86009509291581]
我々はForgerySleuthを提案し、包括的ヒント融合を行い、改ざんされた領域を示すセグメンテーション出力を生成する。
ForgeryAnalysisの有効性を実証し,ForgerySleuthが既存手法の堅牢性,一般化性,説明可能性において著しく優れていたことを示す。
論文 参考訳(メタデータ) (2024-11-29T04:35:18Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
しかし、不器用なエージェントや悪意のあるエージェントがシステム全体のパフォーマンスに与える影響は、まだ解明されていない。
本稿では, 種々のシステム構造の耐震性について考察する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - Towards Robust Multi-Modal Reasoning via Model Selection [7.6621866737827045]
LLMはエージェントの"脳"として機能し、協調的な多段階タスク解決のための複数のツールを編成する。
我々はテスト時に無視できるランタイムオーバーヘッドを持つプラグインとして、$textitM3$フレームワークを提案する。
実験の結果,我々のフレームワークは,ユーザ入力とサブタスク依存の両方を考慮した動的モデル選択を可能にすることがわかった。
論文 参考訳(メタデータ) (2023-10-12T16:06:18Z) - Detecting and Grounding Multi-Modal Media Manipulation and Beyond [93.08116982163804]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。
DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。
本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文 参考訳(メタデータ) (2023-09-25T15:05:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。