Fugu-MT 論文翻訳(概要): Bridging the Micro--Macro Gap: Frequency-Aware Semantic Alignment for Image Manipulation Localization

論文の概要: Bridging the Micro--Macro Gap: Frequency-Aware Semantic Alignment for Image Manipulation Localization

arxiv url: http://arxiv.org/abs/2604.12341v1
Date: Tue, 14 Apr 2026 06:24:12 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-15 19:11:32.282316
Title: Bridging the Micro--Macro Gap: Frequency-Aware Semantic Alignment for Image Manipulation Localization
Title（参考訳）: マイクロマクロギャップのブリッジ:画像操作位置決めのための周波数対応セマンティックアライメント
Authors: Xiaojie Liang, Zhimin Chen, Ziqi Sheng, Wei Lu,
Abstract要約: 従来の操作と拡散生成操作の両方をローカライズするための統合フレームワークであるFASAを提案する。実験は、最先端のローカライゼーション性能、強力なクロスデータセットの一般化、および一般的な画像劣化下でのロバストな性能を示す。
参考スコア（独自算出の注目度）: 8.02155804287918
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As generative image editing advances, image manipulation localization (IML) must handle both traditional manipulations with conspicuous forensic artifacts and diffusion-generated edits that appear locally realistic. Existing methods typically rely on either low-level forensic cues or high-level semantics alone, leading to a fundamental micro--macro gap. To bridge this gap, we propose FASA, a unified framework for localizing both traditional and diffusion-generated manipulations. Specifically, we extract manipulation-sensitive frequency cues through an adaptive dual-band DCT module and learn manipulation-aware semantic priors via patch-level contrastive alignment on frozen CLIP representations. We then inject these priors into a hierarchical frequency pathway through a semantic-frequency side adapter for multi-scale feature interaction, and employ a prototype-guided, frequency-gated mask decoder to integrate semantic consistency with boundary-aware localization for tampered region prediction. Extensive experiments on OpenSDI and multiple traditional manipulation benchmarks demonstrate state-of-the-art localization performance, strong cross-generator and cross-dataset generalization, and robust performance under common image degradations.
Abstract（参考訳）: 画像編集の進歩に伴い、画像操作のローカライゼーション(IML)は、目立った法医学的アーティファクトによる従来の操作と、局所的に現実的に見える拡散生成編集の両方を扱う必要がある。既存の方法は通常、低レベルの法学的な手がかりまたは高レベルの意味論のみに依存しており、基本的なマイクロマクロギャップにつながる。このギャップを埋めるため,従来の操作と拡散処理の両方をローカライズする統合フレームワークであるFASAを提案する。具体的には、適応的なデュアルバンドDCTモジュールを通して、操作に敏感な周波数キューを抽出し、凍結したCLIP表現に対するパッチレベルのコントラストアライメントにより、操作を意識したセマンティクスを学習する。次に,マルチスケールな特徴相互作用のためのセマンティック周波数側アダプタを用いて,これらの先行情報を階層的な周波数経路に注入し,プロトタイプ誘導型マスマスマスデコーダを用いて,境界認識による領域予測の局所化とセマンティック一貫性を統合する。 OpenSDIと複数の従来の操作ベンチマークに関する大規模な実験は、最先端のローカライゼーション性能、強力なクロスジェネレータとクロスデータセットの一般化、そして一般的な画像劣化下での堅牢なパフォーマンスを示す。

関連論文リスト

FOCA: Frequency-Oriented Cross-Domain Forgery Detection, Localization and Explanation via Multi-Modal Large Language Model [11.08248067961235]
FOCAは、RGB空間領域と周波数領域の両方の識別機能を統合した、大規模な言語モデルベースのフレームワークである。 FSE-Setは、さまざまな認証と改ざんされたイメージ、ピクセルレベルのマスク、デュアルドメインアノテーションを備えた大規模なデータセットである。
論文参考訳（メタデータ） (2026-02-21T15:53:44Z)
Detecting AI-Generated Forgeries via Iterative Manifold Deviation Amplification [11.465428962772245]
IFA-Netは「偽物」の学習から「本物」のモデリングへと移行する。 IFA-NetはIoUが6.5%、F1スコアが8.1%向上した。
論文参考訳（メタデータ） (2026-02-21T14:14:17Z)
Contrastive Learning with Diffusion Features for Weakly Supervised Medical Image Segmentation [12.530950480385554]
条件拡散モデル (CDM) は, セグメンテーションマスク生成の代替手段として用いられている。拡散特徴量を用いたコントラスト学習(CLDF)を導入し,凍結したCDMからセグメンテーションのための低次元埋め込み空間へ拡散特徴量をマッピングするために画素デコーダを訓練する。
論文参考訳（メタデータ） (2025-06-30T01:43:50Z)
Freqformer: Image-Demoiréing Transformer via Efficient Frequency Decomposition [83.40450475728792]
本稿では,Freqformerについて述べる。Freqformerは,ターゲット周波数分離による画像復号化に特化して設計されたトランスフォーマーベースのフレームワークである。本手法は,モワールパターンを高周波数空間局在化テクスチャと低周波数スケールローバスト色歪みに明確に分割する有効な周波数分解を行う。様々なデモアのベンチマーク実験により、Freqformerは、コンパクトなモデルサイズで最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-05-25T12:23:10Z)
Context-Aware Weakly Supervised Image Manipulation Localization with SAM Refinement [52.15627062770557]
悪意のある画像操作は社会的リスクを生じさせ、効果的な画像操作検出方法の重要性を高めている。画像操作検出の最近のアプローチは、完全に教師されたアプローチによって大きく推進されている。本稿では,デュアルブランチトランスフォーマー-CNNアーキテクチャに基づく,弱教師付きフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-26T07:35:09Z)
Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文参考訳（メタデータ） (2024-08-05T08:35:59Z)
Masked Collaborative Contrast for Weakly Supervised Semantic Segmentation [22.74105261883464]
Masked Collaborative Contrast (MCC) は、弱教師付きセマンティックセグメンテーションにおける意味領域を強調する。 MCCは暗黙のイメージモデリングと対照的な学習から着想を得て、セマンティック領域に向けてキーを誘導する新しいフレームワークを考案した。
論文参考訳（メタデータ） (2023-05-15T09:46:28Z)
Masked Frequency Modeling for Self-Supervised Visual Pre-Training [102.89756957704138]
MFM(Masked Frequency Modeling)は、視覚モデルの自己教師付き事前学習のための統合周波数領域に基づくアプローチである。 MFMはまず入力画像の周波数成分の一部をマスクアウトし、周波数スペクトルの欠落周波数を予測する。 MFMは初めて、ViTとCNNの両方で、単純な非シームフレームワークは、以下のものを使って意味のある表現を学習できることを示した。
論文参考訳（メタデータ） (2022-06-15T17:58:30Z)
TBNet:Two-Stream Boundary-aware Network for Generic Image Manipulation Localization [49.521622399483846]
汎用画像操作のローカライゼーションのための新しいエンド・ツー・エンド2ストリーム境界対応ネットワーク(TBNet)を提案する。提案したTBNetは、MCCとF1の両方の観点から、最先端の汎用画像操作のローカライズ手法を大幅に上回ることができる。
論文参考訳（メタデータ） (2021-08-10T08:22:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。