論文の概要: Fine-grained Multiple Supervisory Network for Multi-modal Manipulation Detecting and Grounding
- arxiv url: http://arxiv.org/abs/2508.02479v1
- Date: Mon, 04 Aug 2025 14:46:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.384606
- Title: Fine-grained Multiple Supervisory Network for Multi-modal Manipulation Detecting and Grounding
- Title(参考訳): マルチモーダルマニピュレーション検出・接地のためのきめ細かいマルチバイザネットワーク
- Authors: Xinquan Yu, Wei Lu, Xiangyang Luo,
- Abstract要約: マルチモーダルメディア操作(Multi-Modal Media Manipulation、DGM$4$)は、誤情報検出の一分野である。
既存の手法は、信頼できない不動データによる誤った干渉のために、しばしば性能に制限される。
本稿では, モダリティの信頼性管理, 単調な内部監視, クロスモーダル監視を組み込んだFMSネットワークを提案する。
- 参考スコア(独自算出の注目度): 15.670987587762259
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The task of Detecting and Grounding Multi-Modal Media Manipulation (DGM$^4$) is a branch of misinformation detection. Unlike traditional binary classification, it includes complex subtasks such as forgery content localization and forgery method classification. Consider that existing methods are often limited in performance due to neglecting the erroneous interference caused by unreliable unimodal data and failing to establish comprehensive forgery supervision for mining fine-grained tampering traces. In this paper, we present a Fine-grained Multiple Supervisory (FMS) network, which incorporates modality reliability supervision, unimodal internal supervision and cross-modal supervision to provide comprehensive guidance for DGM$^4$ detection. For modality reliability supervision, we propose the Multimodal Decision Supervised Correction (MDSC) module. It leverages unimodal weak supervision to correct the multi-modal decision-making process. For unimodal internal supervision, we propose the Unimodal Forgery Mining Reinforcement (UFMR) module. It amplifies the disparity between real and fake information within unimodal modality from both feature-level and sample-level perspectives. For cross-modal supervision, we propose the Multimodal Forgery Alignment Reasoning (MFAR) module. It utilizes soft-attention interactions to achieve cross-modal feature perception from both consistency and inconsistency perspectives, where we also design the interaction constraints to ensure the interaction quality. Extensive experiments demonstrate the superior performance of our FMS compared to state-of-the-art methods.
- Abstract(参考訳): DGM$^4$(DGM$^4$)は誤情報検出の一分野である。
従来のバイナリ分類とは異なり、フォージェリーコンテンツローカライゼーションやフォージェリーメソッド分類のような複雑なサブタスクを含んでいる。
既存の手法は、信頼性の低い不正なデータによる誤った干渉を無視し、きめ細かい改ざん跡を採掘するための包括的な偽造監視を確立できないため、しばしば性能が制限される。
本稿では、DGM$4$検出のための総合的なガイダンスを提供するために、モダリティ信頼性の監視、非モーダル内部監視、相互監視を含むFMSネットワークを提案する。
モダリティ信頼性の監視のために,MDSCモジュールを提案する。
マルチモーダルな意思決定プロセスを修正するために、一元的弱監視を活用する。
一元的内部監視のために,我々はUnimodal Forgery Mining Reinforcement (UFMR)モジュールを提案する。
特徴レベルとサンプルレベルの両方の観点から、非モーダルモードにおける実情報と偽情報の相違を増幅する。
相互監視のためのマルチモーダルフォージェリアライメント推論(MFAR)モジュールを提案する。
ソフトアテンションの相互作用を利用して、一貫性と一貫性の両面から横断的な特徴知覚を実現し、相互作用品質を保証するために相互作用制約を設計する。
大規模な実験は、最先端の手法と比較して、FMSの優れた性能を示している。
関連論文リスト
- FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [50.438552588818]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - Evaluating and Steering Modality Preferences in Multimodal Large Language Model [32.94581875014947]
マルチモーダル大言語モデル(MLLM)は、マルチモーダルコンテキストを持つ複雑なタスクにおいて顕著なパフォーマンスを実現している。
実験対象のMLLMは, すべて明らかなモダリティバイアスを示し, 外部介入の影響を受けやすいことがわかった。
本稿では,モダリティの選好を明示的に制御するための表現工学に基づく探索・操舵手法を提案する。
論文 参考訳(メタデータ) (2025-05-27T10:07:59Z) - Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models [26.17300490736624]
MLLM(Multimodal Large Language Models)は、一貫した視覚・テキスト入力で主に訓練され、テストされる。
本稿では,MLLMの意味的ミスマッチの検出と推論能力を評価するためのマルチモーダル不整合推論ベンチマークを提案する。
我々は6つの最先端MLLMを評価し、o1のような専用マルチモーダル推論能力を持つモデルは、その性能を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-22T01:52:37Z) - Multimodal Task Representation Memory Bank vs. Catastrophic Forgetting in Anomaly Detection [6.991692485111346]
教師なし連続異常検出(UCAD)はマルチタスク表現学習において大きな課題に直面している。
本稿では,MTRMB(Multimodal Task Representation Memory Bank)方式を提案する。
MVtec AD と VisA データセットの実験では、MTRMB の優位性が示され、平均検出精度は 0.921 である。
論文 参考訳(メタデータ) (2025-02-10T06:49:54Z) - Tuned Reverse Distillation: Enhancing Multimodal Industrial Anomaly Detection with Crossmodal Tuners [15.89869857998053]
マルチブランチ設計に基づくチューニング逆蒸留(TRD)を提案し,マルチモーダル産業用ADを実現する。
独立分岐を各モードに割り当てることで、各モード内の異常をより細かく検出することができる。
本手法は,マルチモーダル異常検出および局所化における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-12-12T05:26:50Z) - RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection [61.71770293720491]
本稿では,2段階のロバスト・モードアリティ不完全融合とFlaAmewoRkの検出について提案する。
我々のブートストラッピング哲学は、MIIADの2段階を強化し、マルチモーダルトランスの堅牢性を向上させることである。
実験の結果,提案手法は従来のMIAD法よりも有効性とロバスト性に優れていた。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - DMM: Disparity-guided Multispectral Mamba for Oriented Object Detection in Remote Sensing [8.530409994516619]
マルチスペクトル指向物体検出は、モーダル間およびモーダル内両方の相違により、課題に直面している。
本稿では,DMM(Disparity-guided Multispectral Mamba),DCFM(Disparity-guided Cross-modal Fusion Mamba)モジュール,MTA(Multiscale Target-aware Attention)モジュール,TPA(Target-Prior Aware)補助タスクからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-11T02:09:59Z) - Detecting and Grounding Multi-Modal Media Manipulation and Beyond [93.08116982163804]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。
DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。
本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文 参考訳(メタデータ) (2023-09-25T15:05:46Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Which is Making the Contribution: Modulating Unimodal and Cross-modal
Dynamics for Multimodal Sentiment Analysis [18.833050804875032]
マルチモーダル感情分析(MSA)は、マルチモーダルデータの利用により注目される。
最近のMSAは、主にクロスモーダル力学の学習に重点を置いているが、ユニモーダルネットワークの最適解を探すことは無視されている。
MSAフレームワーク textbfModulation textbfModel for textbfMultimodal textbfSentiment textbfAnalysisを提案する。
論文 参考訳(メタデータ) (2021-11-10T03:29:17Z) - Digging into Uncertainty in Self-supervised Multi-view Stereo [57.04768354383339]
自己教師型学習のための新しいuncertainty reduction Multi-view Stereo(UMVS)フレームワークを提案する。
我々のフレームワークは、教師なしのMVSメソッドの中で最高のパフォーマンスを達成し、教師なしの対戦相手と競合する性能を実現している。
論文 参考訳(メタデータ) (2021-08-30T02:53:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。