論文の概要: Exploring Multi-Modal Fusion for Image Manipulation Detection and
Localization
- arxiv url: http://arxiv.org/abs/2312.01790v1
- Date: Mon, 4 Dec 2023 10:25:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 15:25:53.301697
- Title: Exploring Multi-Modal Fusion for Image Manipulation Detection and
Localization
- Title(参考訳): 画像操作検出と局所化のためのマルチモーダル融合の探索
- Authors: Konstantinos Triaridis, Vasileios Mezaris
- Abstract要約: 異なる種類の操作を公開し、補完的な法医学的トレースを提供する際、異なるフィルタが優れていることを示す。
本稿では,各法医学的フィルタから独立した特徴を生成し,それらを融合させる2つの方法を提案する。
両手法が画像操作のローカライゼーションと検出の両方で性能を向上し,複数のデータセットにおける最先端モデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 8.067880298298185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent image manipulation localization and detection techniques usually
leverage forensic artifacts and traces that are produced by a noise-sensitive
filter, such as SRM and Bayar convolution. In this paper, we showcase that
different filters commonly used in such approaches excel at unveiling different
types of manipulations and provide complementary forensic traces. Thus, we
explore ways of merging the outputs of such filters and aim to leverage the
complementary nature of the artifacts produced to perform image manipulation
localization and detection (IMLD). We propose two distinct methods: one that
produces independent features from each forensic filter and then fuses them
(this is referred to as late fusion) and one that performs early mixing of
different modal outputs and produces early combined features (this is referred
to as early fusion). We demonstrate that both approaches achieve competitive
performance for both image manipulation localization and detection,
outperforming state-of-the-art models across several datasets.
- Abstract(参考訳): 最近の画像操作のローカライゼーションと検出技術は、通常、SRMやBayar畳み込みのようなノイズ感受性フィルタによって生成される法医学的アーティファクトとトレースを利用する。
本稿では,このような手法で一般的に使用される異なるフィルタが,異なる種類の操作の提示に優れ,補完的な法医学的トレースを提供することを示す。
そこで我々は,そのようなフィルタの出力をマージし,画像操作のローカライゼーションと検出を行うために生成されたアーティファクトの相補的な性質を活用することを目的としている。
我々は,各法医学的フィルタから独立した特徴を生成し,それらを融合させる方法と,異なるモーダル出力を早期に混合し,早期に結合した特徴(早期融合と呼ばれる)を生成する方法の2つの方法を提案する。
両手法が画像操作のローカライゼーションと検出の両面での競合性能を実現し,複数のデータセットにおける最先端モデルよりも優れていることを示す。
関連論文リスト
- Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - Fusion Transformer with Object Mask Guidance for Image Forgery Analysis [9.468075384561947]
OMG-Fuserは、様々な法医学的信号から情報を取り出すために設計された融合トランスフォーマーベースのネットワークである。
本手法は任意の数の法定信号で動作可能であり,解析に対象情報を利用する。
我々のモデルは、伝統的で斬新な偽造攻撃に対して堅牢であり、スクラッチからトレーニングを受けることなく、新しい信号で拡張することができる。
論文 参考訳(メタデータ) (2024-03-18T20:20:13Z) - Bridging the Gap between Multi-focus and Multi-modal: A Focused
Integration Framework for Multi-modal Image Fusion [5.417493475406649]
MMIF(Multi-Modal Image fusion)は、異なるモダリティ画像からの貴重な情報を融合画像に統合する。
本稿では,協調型統合とモダリティ情報抽出のためのMMIFフレームワークを提案する。
提案アルゴリズムは、視覚知覚と定量的評価において最先端の手法を超越することができる。
論文 参考訳(メタデータ) (2023-11-03T12:58:39Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Multi-modal Gated Mixture of Local-to-Global Experts for Dynamic Image
Fusion [59.19469551774703]
赤外線と可視画像の融合は,複数の情報源からの包括的情報を統合して,様々な作業において優れた性能を実現することを目的としている。
局所-言語の専門家によるマルチモーダルゲート混合を用いた動的画像融合フレームワークを提案する。
本モデルは,Mixture of Local Experts (MoLE) とMixture of Global Experts (MoGE) から構成される。
論文 参考訳(メタデータ) (2023-02-02T20:06:58Z) - Unsupervised Image Fusion Method based on Feature Mutual Mapping [16.64607158983448]
上記の問題に対処するために,教師なし適応画像融合法を提案する。
入力元画像間の画素の接続を計測するグローバルマップを構築した。
本手法は視覚的知覚と客観的評価の両方において優れた性能を実現する。
論文 参考訳(メタデータ) (2022-01-25T07:50:14Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。