論文の概要: Agentic Mixed-Source Multi-Modal Misinformation Detection with Adaptive Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2603.02519v1
- Date: Tue, 03 Mar 2026 02:07:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.599832
- Title: Agentic Mixed-Source Multi-Modal Misinformation Detection with Adaptive Test-Time Scaling
- Title(参考訳): 適応的テスト時間スケーリングによるエージェント混在型マルチモーダル誤情報検出
- Authors: Wei Jiang, Tong Chen, Wei Yuan, Quoc Viet Hung Nguyen, Hongzhi Yin,
- Abstract要約: 視覚言語モデル(VLM)は,社会プラットフォーム上でのマルチモーダル誤報の検出に有効であることが証明されている。
しかしながら、単一のVLMの容量は、より複雑な混在するマルチモーダル誤情報検出タスクにおいて不足する。
我々は,ゼロショット誤情報検出のためのマルチエージェントフレームワークであるAgentM3Dを提案する。
- 参考スコア(独自算出の注目度): 41.61826091940538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have been proven effective for detecting multi-modal misinformation on social platforms, especially in zero-shot settings with unavailable or delayed annotations. However, a single VLM's capacity falls short in the more complex mixed-source multi-modal misinformation detection (M3D) task. Taking captioned images as an example, in M3D, false information can originate from untruthful texts, forged images, or mismatches between the two modalities. Although recent agentic systems can handle zero-shot M3D by connecting modality-specific VLM agents, their effectiveness is still bottlenecked by their architecture. In existing agentic M3D solutions, for any input sample, each agent performs only one forward reasoning pass, making decisions prone to model randomness and reasoning errors in challenging cases. Moreover, the lack of exploration over alternative reasoning paths prevents modern VLMs from fully utilizing their reasoning capacity. In this work, we present AgentM3D, a multi-agent framework for zero-shot M3D. To amplify the reasoning capability of VLMs, we introduce an adaptive test-time scaling paradigm in which each modality-specific VLM agent applies a Best-of-N mechanism, coupled with a critic agent for task-aligned scoring. The agents are organized in a cascading, modality-specific decision chain to reduce unnecessary computation and limit error propagation. To ensure scalability, a planning agent dynamically determines the maximum number of reasoning paths based on sample difficulty, and an adaptive stopping mechanism prevents excessive reasoning within each agent. Extensive experiments on two M3D benchmarks demonstrate that AgentM3D achieves state-of-the-art zero-shot detection performance compared with various VLM-based and agentic baselines.
- Abstract(参考訳): 視覚言語モデル(VLM)は、社会プラットフォーム上のマルチモーダルな誤報を検出するのに有効であることが証明されている。
しかし、単一のVLMの容量は、より複雑な混合ソースマルチモーダル誤情報検出(M3D)タスクで不足する。
キャプション付き画像を例にとると、M3Dでは、偽情報は不誠実なテキスト、偽画像、または2つのモダリティ間のミスマッチから生じる可能性がある。
近年のエージェントシステムは、モダリティ固有のVLMエージェントを接続することで、ゼロショットM3Dを処理できるが、その効果はアーキテクチャによっていまだにボトルネックになっている。
既存のエージェントM3Dソリューションでは、任意の入力サンプルに対して、各エージェントは1つのフォワード推論パスのみを実行し、ランダム性をモデル化し、困難なケースで推論エラーを発生させる。
さらに、代替推論経路に対する探索の欠如により、現代のVLMは推論能力を完全に活用することができない。
本稿では,ゼロショットM3DのためのマルチエージェントフレームワークであるAgentM3Dを提案する。
VLMの推論能力を増幅するために,各モード固有のVLMエージェントがBest-of-N機構を適用し,タスク整合スコアリングの批判エージェントと併用する適応型テストタイムスケーリングパラダイムを導入する。
エージェントは、不要な計算を減らし、エラーの伝播を制限するために、カスケードでモダリティ固有の決定チェーンで構成される。
拡張性を確保するため、計画エージェントはサンプル難易度に基づいて推論経路の最大数を動的に決定し、適応停止機構により各エージェント内での過剰な推論を防止する。
2つのM3Dベンチマークの大規模な実験により、エージェントM3Dは様々なVLMベースおよびエージェントベースラインと比較して最先端のゼロショット検出性能を達成することが示された。
関連論文リスト
- DLLM Agent: See Farther, Run Faster [94.74432470237817]
拡散大言語モデル(DLLM)は、自己回帰(AR)デコーディングの代替として、魅力的な効率とモデリング特性を持つ。
我々は、DLLMとARのバックボーンを同一のエージェントワークフロー内でインスタンス化することで、制御された環境でこれを研究する。
DLLMエージェントはARエージェントよりも平均30%以上速く、場合によっては8倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2026-02-07T09:01:18Z) - AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent [57.10083973844841]
AgentArkは、マルチエージェントダイナミクスを単一のモデルの重みに蒸留する新しいフレームワークである。
各種モデル,タスク,スケーリング,シナリオの3つの階層的蒸留戦略について検討する。
シミュレーションからトレーニングへ計算の負担をシフトさせることで、蒸留されたモデルは、複数のエージェントの強い推論と自己補正性能を示しながら、一つのエージェントの効率を保ちます。
論文 参考訳(メタデータ) (2026-02-03T19:18:28Z) - AgentAsk: Multi-Agent Systems Need to Ask [26.13279490836716]
大規模言語モデル(LLM)上に構築されたマルチエージェントシステムは、協調的な分業による問題解決能力の向上を約束する。
我々はAgentAskを提案する。AgentAskは軽量でプラグ・アンド・プレイの明確化モジュールで、すべてのエージェント間メッセージを潜在的な障害点として扱い、エラーの伝播を抑えるのに必要最小限の質問を挿入する。
AgentAskは、公開マルチエージェント実装の精度と堅牢性を継続的に改善し、オーバーヘッドを最小限に抑え、レイテンシと余分なコストを5%以下に抑える。
論文 参考訳(メタデータ) (2025-10-08T22:36:05Z) - DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。
そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。
MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文 参考訳(メタデータ) (2025-09-15T10:59:57Z) - CodeAgents: A Token-Efficient Framework for Codified Multi-Agent Reasoning in LLMs [16.234259194402163]
マルチエージェント推論を符号化し、マルチエージェントシステムにおける構造化されたトークン効率の計画を可能にするプロンプトフレームワークであるCodeAgentsを紹介する。
その結果, 計画性能は一貫した改善がみられ, 基本となる自然言語よりも3~36ポイントの絶対的な向上が見られた。
論文 参考訳(メタデータ) (2025-07-04T02:20:19Z) - Towards Robust Multi-Modal Reasoning via Model Selection [7.6621866737827045]
LLMはエージェントの"脳"として機能し、協調的な多段階タスク解決のための複数のツールを編成する。
我々はテスト時に無視できるランタイムオーバーヘッドを持つプラグインとして、$textitM3$フレームワークを提案する。
実験の結果,我々のフレームワークは,ユーザ入力とサブタスク依存の両方を考慮した動的モデル選択を可能にすることがわかった。
論文 参考訳(メタデータ) (2023-10-12T16:06:18Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
MADiffは拡散型マルチエージェント学習フレームワークである。
分散ポリシと集中型コントローラの両方として機能する。
実験の結果,MADiffは様々なマルチエージェント学習タスクにおいて,ベースラインアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - MM-TTA: Multi-Modal Test-Time Adaptation for 3D Semantic Segmentation [104.48766162008815]
本稿では,3次元セマンティックセグメンテーションのためのテスト時間適応のマルチモーダル拡張を提案する。
マルチモダリティを最大限に活用できるフレームワークを設計するために、各モダリティは他のモダリティに対して正規化された自己監督信号を提供する。
正規化された擬似ラベルは、多数の多モードテスト時間適応シナリオにおいて安定した自己学習信号を生成する。
論文 参考訳(メタデータ) (2022-04-27T02:28:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。