Fugu-MT 論文翻訳(概要): Exploring Multi-Modal Fusion for Image Manipulation Detection and Localization

論文の概要: Exploring Multi-Modal Fusion for Image Manipulation Detection and Localization

arxiv url: http://arxiv.org/abs/2312.01790v1
Date: Mon, 4 Dec 2023 10:25:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 15:25:53.301697
Title: Exploring Multi-Modal Fusion for Image Manipulation Detection and Localization
Title（参考訳）: 画像操作検出と局所化のためのマルチモーダル融合の探索
Authors: Konstantinos Triaridis, Vasileios Mezaris
Abstract要約: 異なる種類の操作を公開し、補完的な法医学的トレースを提供する際、異なるフィルタが優れていることを示す。本稿では,各法医学的フィルタから独立した特徴を生成し,それらを融合させる2つの方法を提案する。両手法が画像操作のローカライゼーションと検出の両方で性能を向上し,複数のデータセットにおける最先端モデルよりも優れていることを示す。
参考スコア（独自算出の注目度）: 8.067880298298185
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent image manipulation localization and detection techniques usually leverage forensic artifacts and traces that are produced by a noise-sensitive filter, such as SRM and Bayar convolution. In this paper, we showcase that different filters commonly used in such approaches excel at unveiling different types of manipulations and provide complementary forensic traces. Thus, we explore ways of merging the outputs of such filters and aim to leverage the complementary nature of the artifacts produced to perform image manipulation localization and detection (IMLD). We propose two distinct methods: one that produces independent features from each forensic filter and then fuses them (this is referred to as late fusion) and one that performs early mixing of different modal outputs and produces early combined features (this is referred to as early fusion). We demonstrate that both approaches achieve competitive performance for both image manipulation localization and detection, outperforming state-of-the-art models across several datasets.
Abstract（参考訳）: 最近の画像操作のローカライゼーションと検出技術は、通常、SRMやBayar畳み込みのようなノイズ感受性フィルタによって生成される法医学的アーティファクトとトレースを利用する。本稿では,このような手法で一般的に使用される異なるフィルタが,異なる種類の操作の提示に優れ,補完的な法医学的トレースを提供することを示す。そこで我々は,そのようなフィルタの出力をマージし,画像操作のローカライゼーションと検出を行うために生成されたアーティファクトの相補的な性質を活用することを目的としている。我々は,各法医学的フィルタから独立した特徴を生成し,それらを融合させる方法と,異なるモーダル出力を早期に混合し,早期に結合した特徴(早期融合と呼ばれる)を生成する方法の2つの方法を提案する。両手法が画像操作のローカライゼーションと検出の両面での競合性能を実現し,複数のデータセットにおける最先端モデルよりも優れていることを示す。

関連論文リスト

CtrlFuse: Mask-Prompt Guided Controllable Infrared and Visible Image Fusion [51.060328159429154]
赤外線と可視画像の融合は、相補的なモダリティを組み合わせることで、全天候の知覚可能な画像を生成する。我々は,マスクプロンプトによって誘導されるインタラクティブな動的融合を可能にする,制御可能な画像融合フレームワークであるCtrlFuseを提案する。実験では、融合制御性とセグメンテーション精度の両立を実証し、適応されたタスク分岐は元のセグメンテーションモデルよりも優れていた。
論文参考訳（メタデータ） (2026-01-12T13:36:48Z)
MAUGIF: Mechanism-Aware Unsupervised General Image Fusion via Dual Cross-Image Autoencoders [5.5579215593170685]
本稿では,2つのクロスイメージオートエンコーダをベースとしたMAUGIF(Multior-Aware Unsupervised General Image fusion)法を提案する。本稿では, 異なる核融合タスクのメカニズムに応じて, 加法的および乗法的融合の分類を導入する。デコーダのアーキテクチャは、その融合機構によって異なり、性能と解釈性の両方が向上する。
論文参考訳（メタデータ） (2025-11-11T14:01:21Z)
Forensic Self-Descriptions Are All You Need for Zero-Shot Detection, Open-Set Source Attribution, and Clustering of AI-generated Images [8.167678851224121]
従来の手法では、トレーニング中に既知のソースに特有の機能に依存するため、見えないジェネレータに一般化できない。本稿では,法医学的微細構造を明示的にモデル化する新しい手法を提案する。この自己記述により、合成画像のゼロショット検出、画像のオープンセットソース属性、および事前知識のないソースに基づくクラスタリングを行うことができる。
論文参考訳（メタデータ） (2025-03-26T21:34:37Z)
Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。 DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文参考訳（メタデータ） (2024-10-16T06:28:49Z)
Fusion Transformer with Object Mask Guidance for Image Forgery Analysis [9.468075384561947]
OMG-Fuserは、様々な法医学的信号から情報を取り出すために設計された融合トランスフォーマーベースのネットワークである。本手法は任意の数の法定信号で動作可能であり,解析に対象情報を利用する。我々のモデルは、伝統的で斬新な偽造攻撃に対して堅牢であり、スクラッチからトレーニングを受けることなく、新しい信号で拡張することができる。
論文参考訳（メタデータ） (2024-03-18T20:20:13Z)
On the Multi-modal Vulnerability of Diffusion Models [56.08923332178462]
本稿では,MMP-Attackによる拡散モデル生成結果の操作について,特定の接尾辞を元のプロンプトに付加することで提案する。我々のゴールは、拡散モデルを誘導し、元のオブジェクトを同時に除去しながら特定のオブジェクトを生成することである。
論文参考訳（メタデータ） (2024-02-02T12:39:49Z)
Bridging the Gap between Multi-focus and Multi-modal: A Focused Integration Framework for Multi-modal Image Fusion [5.417493475406649]
MMIF(Multi-Modal Image fusion)は、異なるモダリティ画像からの貴重な情報を融合画像に統合する。本稿では,協調型統合とモダリティ情報抽出のためのMMIFフレームワークを提案する。提案アルゴリズムは、視覚知覚と定量的評価において最先端の手法を超越することができる。
論文参考訳（メタデータ） (2023-11-03T12:58:39Z)
Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。 5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-08-24T03:50:37Z)
Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文参考訳（メタデータ） (2023-05-19T05:50:24Z)
Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文参考訳（メタデータ） (2023-04-02T10:25:09Z)
Multi-modal Gated Mixture of Local-to-Global Experts for Dynamic Image Fusion [59.19469551774703]
赤外線と可視画像の融合は,複数の情報源からの包括的情報を統合して,様々な作業において優れた性能を実現することを目的としている。局所-言語の専門家によるマルチモーダルゲート混合を用いた動的画像融合フレームワークを提案する。本モデルは,Mixture of Local Experts (MoLE) とMixture of Global Experts (MoGE) から構成される。
論文参考訳（メタデータ） (2023-02-02T20:06:58Z)
Unsupervised Image Fusion Method based on Feature Mutual Mapping [16.64607158983448]
上記の問題に対処するために,教師なし適応画像融合法を提案する。入力元画像間の画素の接続を計測するグローバルマップを構築した。本手法は視覚的知覚と客観的評価の両方において優れた性能を実現する。
論文参考訳（メタデータ） (2022-01-25T07:50:14Z)
M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文参考訳（メタデータ） (2021-04-20T05:43:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。