論文の概要: Semantic Manipulation Localization
- arxiv url: http://arxiv.org/abs/2604.10132v1
- Date: Sat, 11 Apr 2026 09:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.864398
- Title: Semantic Manipulation Localization
- Title(参考訳): セマンティックマニピュレーションの局在化
- Authors: Zhenshan Tan, Chenhan Lu, Yuxiang Huang, Ziwen He, Xiang Zhang, Yuzhe Sha, Xianyi Chen, Tianrun Chen, Zhangjie Fu,
- Abstract要約: 画像の解釈を著しく変化させる微妙な意味的編集の局所化に焦点を当てた新しいタスクである意味的操作を導入する。
本課題に基づいて,意味的アンカー,摂動知覚,意味論的制約のある推論という3つのコンポーネントを通して意味的感受性をモデル化する,エンドツーエンドのフレームワークであるTRACEを提案する。
包括的実験により、TRACE は我々のベンチマークで既存の IML メソッドを一貫して上回り、より完全でコンパクトでセマンティックに整合したローカライゼーション結果を生成することが示された。
- 参考スコア(独自算出の注目度): 18.942761820082705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image Manipulation Localization (IML) aims to identify edited regions in an image. However, with the increasing use of modern image editing and generative models, many manipulations no longer exhibit obvious low-level artifacts. Instead, they often involve subtle but meaning-altering edits to an object's attributes, state, or relationships while remaining highly consistent with the surrounding content. This makes conventional IML methods less effective because they mainly rely on artifact detection rather than semantic sensitivity. To address this issue, we introduce Semantic Manipulation Localization (SML), a new task that focuses on localizing subtle semantic edits that significantly change image interpretation. We further construct a dedicated fine-grained benchmark for SML using a semantics-driven manipulation pipeline with pixel-level annotations. Based on this task, we propose TRACE (Targeted Reasoning of Attributed Cognitive Edits), an end-to-end framework that models semantic sensitivity through three progressively coupled components: semantic anchoring, semantic perturbation sensing, and semantic-constrained reasoning. Specifically, TRACE first identifies semantically meaningful regions that support image understanding, then injects perturbation-sensitive frequency cues to capture subtle edits under strong visual consistency, and finally verifies candidate regions through joint reasoning over semantic content and semantic scope. Extensive experiments show that TRACE consistently outperforms existing IML methods on our benchmark and produces more complete, compact, and semantically coherent localization results. These results demonstrate the necessity of moving beyond artifact-based localization and provide a new direction for image forensics in complex semantic editing scenarios.
- Abstract(参考訳): 画像操作局所化(IML)は、画像内の編集された領域を特定することを目的としている。
しかし、現代の画像編集と生成モデルの利用が増加し、多くの操作は明らかに低レベルのアーティファクトを示さない。
代わりに、しばしば、オブジェクトの属性、状態、関係に対する微妙だが意味を変える編集を伴いながら、周囲のコンテンツと高度に整合性を保つ。
これにより、従来のIMLメソッドは、セマンティックな感度よりもアーティファクト検出に大きく依存するため、効率が低下する。
この問題に対処するために、画像の解釈を著しく変える微妙な意味編集の局所化に焦点を当てた、セマンティック・マニピュレーション・ローカライゼーション(SML)を導入する。
さらに,画素レベルのアノテーションを持つセマンティックス駆動の操作パイプラインを用いて,SML用の詳細なベンチマークを構築する。
この課題に基づいて,意味的アンカー,意味的摂動センシング,意味的制約のある推論という3つの段階的に結合されたコンポーネントを通して意味的感受性をモデル化する,エンドツーエンドのフレームワークであるTRACE(Targeted Reasoning of Attributed Cognitive Edits)を提案する。
具体的には、TRACEはまず、画像理解をサポートする意味論的意味のある領域を特定し、次に摂動に敏感な周波数キューを注入し、強い視覚的一貫性の下で微妙な編集をキャプチャし、最後にセマンティックコンテンツとセマンティックスコープに関する共同推論を通して候補領域を検証する。
包括的実験により、TRACE は我々のベンチマークで既存の IML メソッドを一貫して上回り、より完全でコンパクトでセマンティックに整合したローカライゼーション結果を生成することが示された。
これらの結果は、アーティファクトベースのローカライゼーションを超えて、複雑なセマンティック編集シナリオにおける画像鑑定のための新しい方向を提供する必要があることを示す。
関連論文リスト
- DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval [53.482391830683014]
合成画像検索(CIR)は、参照画像と、意図した変更を特定する修正テキストとを共同で解釈することにより、対象画像を検索するタスクに対処する。
既存のほとんどの手法は、基底の真理像を唯一の正の例として扱い、残りの全ての画像を負の例として扱う対照的な学習フレームワークの上に構築されている。
学習可能な属性重みとターゲットの相対的負サンプリングによるクエリ埋め込みを提案する。
論文 参考訳(メタデータ) (2026-03-04T13:17:44Z) - Seg4Diff: Unveiling Open-Vocabulary Segmentation in Text-to-Image Diffusion Transformers [56.76198904599581]
テキストと画像の拡散モデルは、言語翻訳において優れているため、モーダル間の注意機構を通じて暗黙的に概念を基礎づける。
近年のマルチモーダル拡散トランスフォーマーでは, 共用画像とテキストトークンを導入し, よりリッチでスケーラブルなクロスモーダルアライメントを実現している。
MM-DiTの注意構造を分析するための体系的フレームワークであるSeg4Diffを導入し,テキストから画像への意味情報の伝達方法に着目した。
論文 参考訳(メタデータ) (2025-09-22T17:59:54Z) - Context-Aware Weakly Supervised Image Manipulation Localization with SAM Refinement [52.15627062770557]
悪意のある画像操作は社会的リスクを生じさせ、効果的な画像操作検出方法の重要性を高めている。
画像操作検出の最近のアプローチは、完全に教師されたアプローチによって大きく推進されている。
本稿では,デュアルブランチトランスフォーマー-CNNアーキテクチャに基づく,弱教師付きフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-26T07:35:09Z) - EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models [52.3015009878545]
我々は、追加の訓練をすることなく、きめ細かなセグメンテーションマップを生成できる画像セグメンタを開発した。
低次元特徴写像の空間的位置と画像画素間の意味的対応を同定する。
大規模な実験では、生成したセグメンテーションマップがよく説明され、画像の細部を捉えることが示されている。
論文 参考訳(メタデータ) (2024-01-22T07:34:06Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - Weakly Supervised Object Localization via Transformer with Implicit
Spatial Calibration [20.322494442959762]
Wakly Supervised Object Localization (WSOL) は、実際のアプリケーションでアノテーションのコストが低いため、多くの注目を集めている。
パッチトークンとそれらの空間関係のセマンティックな類似性を統合拡散モデルに組み込んだ,正確なWSOLのためのシンプルで効果的な空間モジュール(SCM)を提案する。
SCMはTransformerの外部モジュールとして設計されており、推論中に除去して計算コストを削減することができる。
論文 参考訳(メタデータ) (2022-07-21T12:37:15Z) - Situational Perception Guided Image Matting [16.1897179939677]
本研究では,マットアノテーションの主観バイアスを緩和する状況認識ガイド画像マッチング(SPG-IM)手法を提案する。
SPG-IMは、オブジェクト間およびオブジェクト間サリエンシをよりよく関連付けることができ、画像マッチングの主観的性質を補うことができる。
論文 参考訳(メタデータ) (2022-04-20T07:35:51Z) - Semantically Adaptive Image-to-image Translation for Domain Adaptation
of Semantic Segmentation [1.8275108630751844]
街路シーンのセマンティックセグメンテーションにおけるドメイン適応の問題に対処する。
最先端のアプローチの多くは、結果が入力とセマンティックに一致していることを示しながら、ソースイメージの翻訳に重点を置いている。
画像のセマンティクスを利用して翻訳アルゴリズムを導くことも提案する。
論文 参考訳(メタデータ) (2020-09-02T16:16:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。