論文の概要: M2SFormer: Multi-Spectral and Multi-Scale Attention with Edge-Aware Difficulty Guidance for Image Forgery Localization
- arxiv url: http://arxiv.org/abs/2506.20922v1
- Date: Thu, 26 Jun 2025 01:06:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.931205
- Title: M2SFormer: Multi-Spectral and Multi-Scale Attention with Edge-Aware Difficulty Guidance for Image Forgery Localization
- Title(参考訳): M2SFormer:画像フォージェリローカライゼーションのためのエッジ認識困難ガイダンス付きマルチスペクトル・マルチスケールアテンション
- Authors: Ju-Hyeon Nam, Dong-Hyun Moon, Sang-Chul Lee,
- Abstract要約: 近年,深層学習法は画素レベルのフォージェリーローカライゼーションにおいて高い精度を達成している。
本稿では,これらの課題を克服するための新しいトランスフォーマー・エンコーダ・フレームワークであるM2SFormerを提案する。
M2SFormerはスキップ接続におけるマルチ周波数とマルチスケールの注意を統一し、グローバルコンテキストを活用して偽造品のキャプチャを改善する。
- 参考スコア(独自算出の注目度): 0.8090496457850851
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Image editing techniques have rapidly advanced, facilitating both innovative use cases and malicious manipulation of digital images. Deep learning-based methods have recently achieved high accuracy in pixel-level forgery localization, yet they frequently struggle with computational overhead and limited representation power, particularly for subtle or complex tampering. In this paper, we propose M2SFormer, a novel Transformer encoder-based framework designed to overcome these challenges. Unlike approaches that process spatial and frequency cues separately, M2SFormer unifies multi-frequency and multi-scale attentions in the skip connection, harnessing global context to better capture diverse forgery artifacts. Additionally, our framework addresses the loss of fine detail during upsampling by utilizing a global prior map, a curvature metric indicating the difficulty of forgery localization, which then guides a difficulty-guided attention module to preserve subtle manipulations more effectively. Extensive experiments on multiple benchmark datasets demonstrate that M2SFormer outperforms existing state-of-the-art models, offering superior generalization in detecting and localizing forgeries across unseen domains.
- Abstract(参考訳): 画像編集技術は急速に進歩し、革新的なユースケースと悪意あるデジタル画像操作の両方を容易にしている。
深層学習に基づく手法は、最近、ピクセルレベルのフォージェリーローカライゼーションにおいて高い精度を達成したが、計算オーバーヘッドと限られた表現力、特に微妙で複雑な改ざんのためにしばしば苦労している。
本稿では,これらの課題を克服するための新しいトランスフォーマー・エンコーダ・フレームワークであるM2SFormerを提案する。
空間的および周波数的キューを別々に処理するアプローチとは異なり、M2SFormerはスキップ接続におけるマルチ周波数およびマルチスケールの注意を統一し、グローバルコンテキストを活用して多様な偽のアーティファクトを捕捉する。
さらに,本フレームワークでは,大域的な事前マップ,不正な局所化の難しさを示す曲率測定値を用いて,アップサンプリング中の細部の詳細の喪失に対処し,微妙な操作をより効果的に保存するために注意モジュールを誘導する。
複数のベンチマークデータセットに対する大規模な実験により、M2SFormerは既存の最先端モデルよりも優れており、目に見えないドメインをまたいだフォージェリーの検出とローカライズに優れた一般化を提供する。
関連論文リスト
- Context-Aware Weakly Supervised Image Manipulation Localization with SAM Refinement [52.15627062770557]
悪意のある画像操作は社会的リスクを生じさせ、効果的な画像操作検出方法の重要性を高めている。
画像操作検出の最近のアプローチは、完全に教師されたアプローチによって大きく推進されている。
本稿では,デュアルブランチトランスフォーマー-CNNアーキテクチャに基づく,弱教師付きフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-26T07:35:09Z) - Image Forgery Localization via Guided Noise and Multi-Scale Feature Aggregation [13.610095493539397]
IFLのためのガイド付きマルチスケール機能集約ネットワークを提案する。
異なる種類の偽音下でのノイズ特徴を学習するために,有効なノイズ抽出モジュールを開発する。
そして、動的畳み込みを用いて複数のスケールでRGBと雑音機能を適応的に集約する特徴集約モジュール(FAM)を設計する。
最後に,Atrous Residual Pyramid Module (ARPM)を提案する。
論文 参考訳(メタデータ) (2024-11-17T11:50:09Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。
このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文 参考訳(メタデータ) (2024-08-05T08:35:59Z) - Skeleton-Guided Instance Separation for Fine-Grained Segmentation in
Microscopy [23.848474219551818]
顕微鏡(MS)画像解析における基本的な課題の1つは、インスタンスセグメンテーション(IS)である。
我々は,この課題に対処し,MS画像におけるISの精度を高めるために,A2B-ISという新しいワンステージフレームワークを提案する。
提案手法は2つの大規模MSデータセットに対して徹底的に検証されている。
論文 参考訳(メタデータ) (2024-01-18T11:14:32Z) - Hybrid-Supervised Dual-Search: Leveraging Automatic Learning for
Loss-free Multi-Exposure Image Fusion [60.221404321514086]
マルチ露光画像融合(MEF)は、様々な露光レベルを表すデジタルイメージングの限界に対処するための重要な解決策である。
本稿では、ネットワーク構造と損失関数の両方を自動設計するための二段階最適化探索方式であるHSDS-MEFと呼ばれるMEFのためのハイブリッドスーパービジョンデュアルサーチ手法を提案する。
論文 参考訳(メタデータ) (2023-09-03T08:07:26Z) - Towards Effective Image Manipulation Detection with Proposal Contrastive
Learning [61.5469708038966]
本稿では,効果的な画像操作検出のためのコントラスト学習(PCL)を提案する。
我々のPCLは、RGBとノイズビューから2種類のグローバル特徴を抽出し、2ストリームアーキテクチャで構成されている。
我々のPCLは、実際にラベル付けされていないデータに容易に適用でき、手作業によるラベル付けコストを削減し、より一般化可能な機能を促進することができる。
論文 参考訳(メタデータ) (2022-10-16T13:30:13Z) - MC-LCR: Multi-modal contrastive classification by locally correlated
representations for effective face forgery detection [11.124150983521158]
局所的関連表現を用いたマルチモーダルコントラスト分類法を提案する。
我々のMC-LCRは、空間領域と周波数領域の両方から真偽顔と偽顔の暗黙の局所的不一致を増幅することを目的としている。
我々は最先端の性能を達成し,本手法の堅牢性と一般化を実証する。
論文 参考訳(メタデータ) (2021-10-07T09:24:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。