論文の概要: Exploring Multi-Modal Fusion for Image Manipulation Detection and
Localization
- arxiv url: http://arxiv.org/abs/2312.01790v1
- Date: Mon, 4 Dec 2023 10:25:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 15:25:53.301697
- Title: Exploring Multi-Modal Fusion for Image Manipulation Detection and
Localization
- Title(参考訳): 画像操作検出と局所化のためのマルチモーダル融合の探索
- Authors: Konstantinos Triaridis, Vasileios Mezaris
- Abstract要約: 異なる種類の操作を公開し、補完的な法医学的トレースを提供する際、異なるフィルタが優れていることを示す。
本稿では,各法医学的フィルタから独立した特徴を生成し,それらを融合させる2つの方法を提案する。
両手法が画像操作のローカライゼーションと検出の両方で性能を向上し,複数のデータセットにおける最先端モデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 8.067880298298185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent image manipulation localization and detection techniques usually
leverage forensic artifacts and traces that are produced by a noise-sensitive
filter, such as SRM and Bayar convolution. In this paper, we showcase that
different filters commonly used in such approaches excel at unveiling different
types of manipulations and provide complementary forensic traces. Thus, we
explore ways of merging the outputs of such filters and aim to leverage the
complementary nature of the artifacts produced to perform image manipulation
localization and detection (IMLD). We propose two distinct methods: one that
produces independent features from each forensic filter and then fuses them
(this is referred to as late fusion) and one that performs early mixing of
different modal outputs and produces early combined features (this is referred
to as early fusion). We demonstrate that both approaches achieve competitive
performance for both image manipulation localization and detection,
outperforming state-of-the-art models across several datasets.
- Abstract(参考訳): 最近の画像操作のローカライゼーションと検出技術は、通常、SRMやBayar畳み込みのようなノイズ感受性フィルタによって生成される法医学的アーティファクトとトレースを利用する。
本稿では,このような手法で一般的に使用される異なるフィルタが,異なる種類の操作の提示に優れ,補完的な法医学的トレースを提供することを示す。
そこで我々は,そのようなフィルタの出力をマージし,画像操作のローカライゼーションと検出を行うために生成されたアーティファクトの相補的な性質を活用することを目的としている。
我々は,各法医学的フィルタから独立した特徴を生成し,それらを融合させる方法と,異なるモーダル出力を早期に混合し,早期に結合した特徴(早期融合と呼ばれる)を生成する方法の2つの方法を提案する。
両手法が画像操作のローカライゼーションと検出の両面での競合性能を実現し,複数のデータセットにおける最先端モデルよりも優れていることを示す。
関連論文リスト
- From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [63.54342601757723]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - Detecting Deepfakes with Self-Blended Images [37.374772758057844]
本稿では,深度情報を検出するために,SBI(Self-blended Image)と呼ばれる新しい合成トレーニングデータを提案する。
SBIは、単一のプリスタン画像から擬似ソースとターゲットイメージを混合して生成される。
我々は,FF++,CDF,DFD,DFDC,DFDCP,FFIWデータセットの最先端手法との比較を行った。
論文 参考訳(メタデータ) (2022-04-18T15:44:35Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - ObjectFormer for Image Manipulation Detection and Localization [118.89882740099137]
画像操作の検出とローカライズを行うObjectFormerを提案する。
画像の高周波特徴を抽出し,マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。
各種データセットについて広範な実験を行い,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-03-28T12:27:34Z) - Unsupervised Image Fusion Method based on Feature Mutual Mapping [16.64607158983448]
上記の問題に対処するために,教師なし適応画像融合法を提案する。
入力元画像間の画素の接続を計測するグローバルマップを構築した。
本手法は視覚的知覚と客観的評価の両方において優れた性能を実現する。
論文 参考訳(メタデータ) (2022-01-25T07:50:14Z) - Cross-Modality Sub-Image Retrieval using Contrastive Multimodal Image
Representations [3.3754780158324564]
異なるモダリティによってキャプチャされた類似(または同じ)コンテンツのイメージは、共通の構造をほとんど共有しないため、モダリティ間の画像検索は困難である。
本稿では,モダリティ間の逆(サブ)画像検索のためのアプリケーション非依存のコンテンツベース画像検索システムを提案する。
論文 参考訳(メタデータ) (2022-01-10T19:04:28Z) - Multi-Perspective Anomaly Detection [3.3511723893430476]
我々は,ディープサポートベクトルデータ記述アルゴリズムを構築し,マルチパースペクティブな異常検出に対処する。
我々は、少ない一級データを扱うために、デノナイジングプロセスで異なる拡張手法を採用する。
2つの異なる視点からの画像を用いて新しいダイスデータセットのアプローチを評価し、標準MNISTデータセットのベンチマークを行った。
論文 参考訳(メタデータ) (2021-05-20T17:07:36Z) - Operation-wise Attention Network for Tampering Localization Fusion [15.633461635276337]
本研究では,画像改ざん局在融合のための深層学習手法を提案する。
このアプローチは、複数の画像法医学アルゴリズムの結果を組み合わせるために設計され、融合したタンパリングローカライゼーションマップを提供する。
我々の融合フレームワークは、JPEG画像上のローカライズをスプライシングするための5つの個別タンパリングローカライズ手法を含む。
論文 参考訳(メタデータ) (2021-05-12T08:50:59Z) - A Hierarchical Transformation-Discriminating Generative Model for Few
Shot Anomaly Detection [93.38607559281601]
各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。
この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。
論文 参考訳(メタデータ) (2021-04-29T17:49:48Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。