論文の概要: MMFusion: Combining Image Forensic Filters for Visual Manipulation Detection and Localization
- arxiv url: http://arxiv.org/abs/2312.01790v2
- Date: Wed, 16 Oct 2024 18:08:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:16:20.535013
- Title: MMFusion: Combining Image Forensic Filters for Visual Manipulation Detection and Localization
- Title(参考訳): MMFusion:ビジュアルマニピュレーション検出とローカライゼーションのための画像Forensic Filterの組み合わせ
- Authors: Kostas Triaridis, Konstantinos Tsigos, Vasileios Mezaris,
- Abstract要約: 最近の画像操作のローカライゼーションと検出技術は、一般的にノイズ感受性フィルタによって生成された法医学的アーティファクトとトレースを利用する。
本稿では,このような手法でよく用いられる異なるフィルタが,異なる種類の操作を提示し,補完的な法医学的トレースを提供するのに優れていることを示す。
画像操作の局所化と検出を行うために,このようなフィルタの出力を組み合わせて生成した成果物の相補的な性質を活用する方法について検討する。
- 参考スコア(独自算出の注目度): 6.076406622352117
- License:
- Abstract: Recent image manipulation localization and detection techniques typically leverage forensic artifacts and traces that are produced by a noise-sensitive filter, such as SRM or Bayar convolution. In this paper, we showcase that different filters commonly used in such approaches excel at unveiling different types of manipulations and provide complementary forensic traces. Thus, we explore ways of combining the outputs of such filters to leverage the complementary nature of the produced artifacts for performing image manipulation localization and detection (IMLD). We assess two distinct combination methods: one that produces independent features from each forensic filter and then fuses them (this is referred to as late fusion) and one that performs early mixing of different modal outputs and produces combined features (this is referred to as early fusion). We use the latter as a feature encoding mechanism, accompanied by a new decoding mechanism that encompasses feature re-weighting, for formulating the proposed MMFusion architecture. We demonstrate that MMFusion achieves competitive performance for both image manipulation localization and detection, outperforming state-of-the-art models across several image and video datasets. We also investigate further the contribution of each forensic filter within MMFusion for addressing different types of manipulations, building on recent AI explainability measures.
- Abstract(参考訳): 最近の画像操作のローカライゼーションと検出技術は、SRMやBayar畳み込みのようなノイズ感受性フィルタによって生成される法医学的アーティファクトとトレースを利用するのが一般的である。
本稿では,このような手法でよく用いられる異なるフィルタが,異なる種類の操作を提示し,補完的な法医学的トレースを提供するのに優れていることを示す。
そこで我々は、画像操作の局所化と検出(IMLD)を行うために、そのようなフィルタの出力を組み合わせて、生成したアーティファクトの相補的な性質を活用する方法について検討する。
本稿では,各法定フィルタから独立な特徴を生成して融合させる手法と,異なるモーダル出力を早期に混合し,組み合わせた特徴を生成する手法(早期融合と呼ぶ)について検討する。
提案するMMFusionアーキテクチャを定式化するために,機能再重み付けを含む新しいデコード機構を伴って,後者を特徴符号化機構として利用する。
MMFusionは画像操作のローカライゼーションと検出の両面での競合性能を実現し,複数の画像およびビデオデータセットにおける最先端モデルよりも優れていることを示す。
また、近年のAI説明可能性尺度に基づいて、様々な種類の操作に対処するためのMMFusion内の各法医学フィルタの貢献についても検討する。
関連論文リスト
- Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - Fusion Transformer with Object Mask Guidance for Image Forgery Analysis [9.468075384561947]
OMG-Fuserは、様々な法医学的信号から情報を取り出すために設計された融合トランスフォーマーベースのネットワークである。
本手法は任意の数の法定信号で動作可能であり,解析に対象情報を利用する。
我々のモデルは、伝統的で斬新な偽造攻撃に対して堅牢であり、スクラッチからトレーニングを受けることなく、新しい信号で拡張することができる。
論文 参考訳(メタデータ) (2024-03-18T20:20:13Z) - Bridging the Gap between Multi-focus and Multi-modal: A Focused
Integration Framework for Multi-modal Image Fusion [5.417493475406649]
MMIF(Multi-Modal Image fusion)は、異なるモダリティ画像からの貴重な情報を融合画像に統合する。
本稿では,協調型統合とモダリティ情報抽出のためのMMIFフレームワークを提案する。
提案アルゴリズムは、視覚知覚と定量的評価において最先端の手法を超越することができる。
論文 参考訳(メタデータ) (2023-11-03T12:58:39Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Multi-modal Gated Mixture of Local-to-Global Experts for Dynamic Image
Fusion [59.19469551774703]
赤外線と可視画像の融合は,複数の情報源からの包括的情報を統合して,様々な作業において優れた性能を実現することを目的としている。
局所-言語の専門家によるマルチモーダルゲート混合を用いた動的画像融合フレームワークを提案する。
本モデルは,Mixture of Local Experts (MoLE) とMixture of Global Experts (MoGE) から構成される。
論文 参考訳(メタデータ) (2023-02-02T20:06:58Z) - Unsupervised Image Fusion Method based on Feature Mutual Mapping [16.64607158983448]
上記の問題に対処するために,教師なし適応画像融合法を提案する。
入力元画像間の画素の接続を計測するグローバルマップを構築した。
本手法は視覚的知覚と客観的評価の両方において優れた性能を実現する。
論文 参考訳(メタデータ) (2022-01-25T07:50:14Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。