論文の概要: Seg2Any: Open-set Segmentation-Mask-to-Image Generation with Precise Shape and Semantic Control
- arxiv url: http://arxiv.org/abs/2506.00596v1
- Date: Sat, 31 May 2025 15:12:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.282084
- Title: Seg2Any: Open-set Segmentation-Mask-to-Image Generation with Precise Shape and Semantic Control
- Title(参考訳): Seg2Any: 精密形状と意味制御によるオープンセットセグメンテーションマスク・ツー・イメージ生成
- Authors: Danfeng li, Hui Zhang, Sheng Wang, Jiacheng Li, Zuxuan Wu,
- Abstract要約: テキスト・トゥ・イメージ(T2I)モデルは、正確な空間レイアウト制御に苦慮している。
Seg2Anyは、高度なマルチモーダル拡散変換器上に構築された新しいS2Iフレームワークである。
Seg2Anyは、オープンセットとクローズセットの両方のS2Iベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 42.20605706240408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent advances in diffusion models, top-tier text-to-image (T2I) models still struggle to achieve precise spatial layout control, i.e. accurately generating entities with specified attributes and locations. Segmentation-mask-to-image (S2I) generation has emerged as a promising solution by incorporating pixel-level spatial guidance and regional text prompts. However, existing S2I methods fail to simultaneously ensure semantic consistency and shape consistency. To address these challenges, we propose Seg2Any, a novel S2I framework built upon advanced multimodal diffusion transformers (e.g. FLUX). First, to achieve both semantic and shape consistency, we decouple segmentation mask conditions into regional semantic and high-frequency shape components. The regional semantic condition is introduced by a Semantic Alignment Attention Mask, ensuring that generated entities adhere to their assigned text prompts. The high-frequency shape condition, representing entity boundaries, is encoded as an Entity Contour Map and then introduced as an additional modality via multi-modal attention to guide image spatial structure. Second, to prevent attribute leakage across entities in multi-entity scenarios, we introduce an Attribute Isolation Attention Mask mechanism, which constrains each entity's image tokens to attend exclusively to themselves during image self-attention. To support open-set S2I generation, we construct SACap-1M, a large-scale dataset containing 1 million images with 5.9 million segmented entities and detailed regional captions, along with a SACap-Eval benchmark for comprehensive S2I evaluation. Extensive experiments demonstrate that Seg2Any achieves state-of-the-art performance on both open-set and closed-set S2I benchmarks, particularly in fine-grained spatial and attribute control of entities.
- Abstract(参考訳): 近年の拡散モデルの発展にもかかわらず、トップ層テキスト・トゥ・イメージ(T2I)モデルは正確な空間レイアウト制御、すなわち特定の属性と位置を持つエンティティを正確に生成するのに依然として苦労している。
ピクセルレベルの空間的ガイダンスと地域テキストプロンプトを組み込むことにより,S2I生成が有望なソリューションとして浮上している。
しかし、既存のS2Iメソッドは、セマンティック一貫性と形状整合性を確保するのに失敗する。
これらの課題に対処するために,先進多モード拡散変換器(FLUXなど)上に構築された新しいS2IフレームワークであるSeg2Anyを提案する。
まず,セグメンテーションマスク条件を局所意味成分と高周波形状成分に分離する。
地域意味条件はセマンティックアライメント・アテンション・マスクによって導入され、生成されたエンティティが割り当てられたテキストプロンプトに従属することを保証する。
エンティティ境界を表す高周波形状条件は、エンティティ・コンターマップとして符号化され、画像空間構造を導くためにマルチモーダル・アテンションを介して追加のモダリティとして導入される。
第二に、マルチエンタリティシナリオにおけるエンティティ間の属性漏洩を防止するために、各エンティティのイメージトークンが自己アテンション中にのみ参加することを制約する属性分離アテンションマスク機構を導入する。
オープンセットのS2I生成をサポートするために,590万のセグメンテーションエンティティと詳細な地域キャプションを持つ100万の画像を含む大規模データセットであるSACap-1Mと,総合的なS2I評価のためのSACap-Evalベンチマークを構築した。
大規模な実験により、Seg2Anyは、オープンセットとクローズセットの両方のS2Iベンチマーク、特にエンティティのきめ細かい空間および属性制御において、最先端のパフォーマンスを達成することが示された。
関連論文リスト
- Towards Fine-grained Interactive Segmentation in Images and Videos [21.22536962888316]
SAM2のバックボーン上に構築されたSAM2Refinerフレームワークを提案する。
このアーキテクチャによりSAM2は、画像とビデオの両方のきめ細かいセグメンテーションマスクを生成することができる。
さらに,マルチスケールのカスケード構造を用いてマスク特徴とエンコーダの階層的表現を融合させることによりマスクリファインメントモジュールを考案した。
論文 参考訳(メタデータ) (2025-02-12T06:38:18Z) - Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。
未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。
ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文 参考訳(メタデータ) (2024-02-14T06:01:44Z) - Skeleton-Guided Instance Separation for Fine-Grained Segmentation in
Microscopy [23.848474219551818]
顕微鏡(MS)画像解析における基本的な課題の1つは、インスタンスセグメンテーション(IS)である。
我々は,この課題に対処し,MS画像におけるISの精度を高めるために,A2B-ISという新しいワンステージフレームワークを提案する。
提案手法は2つの大規模MSデータセットに対して徹底的に検証されている。
論文 参考訳(メタデータ) (2024-01-18T11:14:32Z) - UniGS: Unified Representation for Image Generation and Segmentation [105.08152635402858]
カラーマップを使用してエンティティレベルのマスクを表現し、さまざまなエンティティ番号の課題に対処します。
マスク表現を支援するために、位置認識カラーパレットとプログレッシブ二分法モジュールを含む2つの新しいモジュールが提案されている。
論文 参考訳(メタデータ) (2023-12-04T15:59:27Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - Dual-Level Collaborative Transformer for Image Captioning [126.59298716978577]
2つの機能の補完的な利点を実現するために、新しいデュアルレベルコラボレーショントランス(DLCT)ネットワークを紹介します。
さらに,これらの2つの特徴の直接融合によって生じる意味的雑音に対処するために,局所性制約付きクロスアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2021-01-16T15:43:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。