論文の概要: SIGMA: Semantic-Difference Instruction-Grounding Mask Annotator for Text-Driven Image Manipulation Localization
- arxiv url: http://arxiv.org/abs/2605.27924v1
- Date: Wed, 27 May 2026 03:55:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.734478
- Title: SIGMA: Semantic-Difference Instruction-Grounding Mask Annotator for Text-Driven Image Manipulation Localization
- Title(参考訳): SIGMA:テキスト駆動画像マニピュレーションローカライゼーションのためのセマンティックディファレンス命令周辺マスクアノテータ
- Authors: Peiyu Zhuang, Jianquan Yang, Haodong Li, Zhuoying Cai, Ruitao Xie, Jishen Zeng, Baoying Chen, Jiwu Huang, Xiaochun Cao,
- Abstract要約: 公開編集データセットには、IMLトレーニングサンプルと構造的に同一(オリジナル、編集)のペアが数百万個含まれており、ピクセルレベルのマスクのみが欠如している。
本稿では,視覚基盤のバックボーンにおいて意味・特徴の相違を行うSIGMAを提案する。
1.1M IMLトレーニングセットを生成し、5つのデータセットに対して+18.34%のF1で6つの多様な検出器を改善する。
- 参考スコア(独自算出の注目度): 64.6372217552272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-driven image editing has advanced rapidly, but reliably localizing these manipulations requires image manipulation localization (IML) models trained on large pixel-annotated datasets, and there is still no low-cost way to obtain such training data at scale. We observe that these data already exist in disguise: public editing datasets contain millions of structurally identical (original, edited) pairs to IML training samples, lacking only pixel-level masks. Recovering these masks automatically is non-trivial: pixel differencing is overwhelmed by diffusion-induced perturbations across all pixels, and instruction-only grounding localizes only what the prompt describes, missing unintended editor side-effects. We propose SIGMA (Semantic-difference Instruction-Grounding Mask Annotator), which performs semantic-feature differencing in a vision foundation backbone and injects an instruction-derived spatial prior into this visual stream via bidirectional cross-modal refinement, amplifying the difference signal at intended-edit regions when the editor faithfully realizes user intent. SIGMA is trained in two complementary stages: Stage I supervises on inpainting masks; Stage II closes the diffusion-domain shift via VAE-roundtrip noise calibration, EMA self-training, and an edit-noise disentanglement loss. SIGMA outperforms existing automatic mask generators on five benchmarks (+12.20% F1, +11.16% IoU). When applied to public editing corpora, it produces a ~1.1M IML training set that improves six diverse detectors by +18.34% F1 across five datasets, turning previously unused editing data into a model-agnostic supervisory resource for IML. We'll release the full codebase as soon as the paper is accepted.
- Abstract(参考訳): テキスト駆動画像編集は急速に進歩しているが、これらの操作を確実にローカライズするには、大きなピクセルアノテーション付きデータセットでトレーニングされた画像操作ローカライゼーション(IML)モデルが必要である。
公開編集データセットには、数百万もの構造的に同一(元々は編集された)ペアとMLトレーニングサンプルが含まれており、ピクセルレベルのマスクのみが欠如している。
ピクセル差分は、すべてのピクセルにわたる拡散誘起摂動によって圧倒され、命令のみの接地は、プロンプトが記述したもののみをローカライズし、意図しないエディタの副作用を欠く。
SIGMA(Semantic-Difference Instruction-Grounding Mask Annotator)は、視覚基盤のバックボーン内で意味的特徴を相違し、双方向のクロスモーダルリファインメントにより、この視覚ストリームに指示対象空間を注入し、エディタがユーザの意図を忠実に認識した場合に、意図された編集領域での差信号の増幅を行う。
SIGMAは、塗装マスクを監督するステージI、VAEラウンドトリップノイズキャリブレーションによる拡散領域シフトを閉鎖するステージII、EMA自己学習、編集ノイズ障害の2つの補完段階で訓練されている。
SIGMAは5つのベンチマーク(+12.20% F1, +11.16% IoU)で既存の自動マスクジェネレータを上回っている。
パブリックな編集コーパスに適用すると、約1.1MのIMLトレーニングセットを生成し、5つのデータセットに+18.34%の多様性検出器を改良し、それまで使われていなかった編集データをIMLのモデルに依存しない監視リソースに変換する。
論文が受理されたらすぐに、完全なコードベースをリリースします。
関連論文リスト
- Edit Where You Mean: Region-Aware Adapter Injection for Mask-Free Local Image Editing [28.295031615161136]
大規模な拡散変換器 (DiT) はグローバルな編集命令に従っているが、常に非関連領域に局所的な編集をリークする。
そこで我々はAdaptEditを紹介した。AdaptEditは、訓練された命令と地域対応のアダプタフレームワークである。
AdaptEditは最先端の結果を達成し、マスクフリーとオラクルマスクのベースラインを同時に上回る。
論文 参考訳(メタデータ) (2026-04-26T15:28:02Z) - From Masks to Pixels and Meaning: A New Taxonomy, Benchmark, and Metrics for VLM Image Tampering [66.2662973049988]
粗い領域ラベルからのVLM画像の改ざんを行う。
我々は,編集プリミティブにまたがる分類学と,その意味クラスを,低レベルな変化と高レベルな理解を結びつけて導入する。
第3に,画素レベルの正しさと局所化を定量化して,真の編集強度に対する信頼度や予測を評価するためのトレーニングフレームワークと評価指標を提案する。
論文 参考訳(メタデータ) (2026-03-20T17:59:54Z) - MaskAttn-SDXL: Controllable Region-Level Text-To-Image Generation [10.894281690166418]
安定拡散XL(SDXL)のUNetのクロスアテンションロジットに適用した領域レベルのゲーティング機構であるMaskAttn-SDXLを提案する。
MaskAttn-SDXLは、層ごとのバイナリマスクを学習し、トークン間相互作用をスパシフィケートするために、ソフトマックスの前に各アテンションロジットマップにそれを注入する。
画像の質と多様性を保ちながら,マルチオブジェクトプロンプトにおける空間コンプライアンスと属性バインディングを改善した。
論文 参考訳(メタデータ) (2025-09-18T18:57:47Z) - LlamaSeg: Image Segmentation via Autoregressive Mask Generation [46.17509085054758]
LlamaSegは視覚的自己回帰フレームワークで、自然言語による複数の画像分割タスクを統一する。
マスクを「視覚的」トークンとして表現し、LLaMA方式のトランスフォーマーを用いて画像入力から直接予測することで、画像分割を視覚生成問題として再構成する。
論文 参考訳(メタデータ) (2025-05-26T02:22:41Z) - MaskInversion: Localized Embeddings via Optimization of Explainability Maps [49.50785637749757]
MaskInversionは、テスト時にマスクによって指定されたクエリ画像領域に対するコンテキスト認識の埋め込みを生成する。
オープン語彙のクラス検索、表現理解の参照、局所的なキャプションや画像生成など、幅広いタスクに使用することができる。
論文 参考訳(メタデータ) (2024-07-29T14:21:07Z) - Exploring Limits of Diffusion-Synthetic Training with Weakly Supervised Semantic Segmentation [16.863038973001483]
本研究は拡散合成セマンティックセマンティックセグメンテーショントレーニングの3つの手法を紹介する。
第一に、信頼性に配慮した堅牢なトレーニングは、もともと弱い教師付き学習で用いられ、合成マスクの品質が不十分なセグメンテーションに役立つ。
第2に、画像Net-1kクラスの画像にバックボーンだけでなく、全体セグメンテーションモデルの大規模事前トレーニングを行うことで、下流のセグメンテーションタスクにメリットがある。
第3に,テキストリソースの制限により,トレーニング画像のスケールアップと多様化を図るために,プロンプトテキストセットにプロンプト拡張,データ拡張を導入する。
論文 参考訳(メタデータ) (2023-09-04T05:34:19Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - DiffuMask: Synthesizing Images with Pixel-level Annotations for Semantic
Segmentation Using Diffusion Models [68.21154597227165]
本研究では,オフザシェルフ安定拡散モデルにより生成された合成画像の正確なセマンティックマスクを自動で取得できることを示す。
我々のアプローチはDiffuMaskと呼ばれ、テキストと画像間の相互注意マップの可能性を利用しています。
論文 参考訳(メタデータ) (2023-03-21T08:43:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。