論文の概要: JoDiffusion: Jointly Diffusing Image with Pixel-Level Annotations for Semantic Segmentation Promotion
- arxiv url: http://arxiv.org/abs/2512.13014v1
- Date: Mon, 15 Dec 2025 06:21:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.554083
- Title: JoDiffusion: Jointly Diffusing Image with Pixel-Level Annotations for Semantic Segmentation Promotion
- Title(参考訳): JoDiffusion: セマンティックセグメンテーション促進のためのPixel-Levelアノテーションを併用した画像の拡散
- Authors: Haoyu Wang, Lei Zhang, Wenrui Liu, Dengyang Jiang, Wei Wei, Chen Ding,
- Abstract要約: セマンティックセグメンテーションのための新しいデータセット生成拡散フレームワークJoDiffusionを提案する。
JoDiffusionは、ペア化されたイメージと、テキストプロンプトにのみ条件付きで意味的に一貫性のあるアノテーションマスクを同時に生成できる。
Pascal VOC、COCO、ADE20Kデータセットの実験では、JoDiffusionによって生成された注釈付きデータセットは、既存のメソッドと比較して、セマンティックセグメンテーションにおいて大幅にパフォーマンスが向上している。
- 参考スコア(独自算出の注目度): 13.484321670536291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given the inherently costly and time-intensive nature of pixel-level annotation, the generation of synthetic datasets comprising sufficiently diverse synthetic images paired with ground-truth pixel-level annotations has garnered increasing attention recently for training high-performance semantic segmentation models. However, existing methods necessitate to either predict pseudo annotations after image generation or generate images conditioned on manual annotation masks, which incurs image-annotation semantic inconsistency or scalability problem. To migrate both problems with one stone, we present a novel dataset generative diffusion framework for semantic segmentation, termed JoDiffusion. Firstly, given a standard latent diffusion model, JoDiffusion incorporates an independent annotation variational auto-encoder (VAE) network to map annotation masks into the latent space shared by images. Then, the diffusion model is tailored to capture the joint distribution of each image and its annotation mask conditioned on a text prompt. By doing these, JoDiffusion enables simultaneously generating paired images and semantically consistent annotation masks solely conditioned on text prompts, thereby demonstrating superior scalability. Additionally, a mask optimization strategy is developed to mitigate the annotation noise produced during generation. Experiments on Pascal VOC, COCO, and ADE20K datasets show that the annotated dataset generated by JoDiffusion yields substantial performance improvements in semantic segmentation compared to existing methods.
- Abstract(参考訳): ピクセルレベルのアノテーションは本質的にコストがかかり、時間もかかるため、高パフォーマンスなセマンティックセマンティックセグメンテーションモデルのトレーニングにおいて、地平線レベルのアノテーションと組み合わせた十分な多様な合成画像からなる合成データセットの生成が注目されている。
しかし、既存の手法では、画像生成後に擬似アノテーションを予測するか、手動のアノテーションマスクに条件付けされた画像を生成する必要がある。
両問題を1つの石で移行するために,JoDiffusionと呼ばれるセマンティックセグメンテーションのための新しいデータセット生成拡散フレームワークを提案する。
第一に、標準の潜伏拡散モデルを考えると、JoDiffusionは独立アノテーション変分自動エンコーダ(VAE)ネットワークを組み込んで、アノテーションマスクを画像で共有される潜伏空間にマッピングする。
そして、拡散モデルを調整し、テキストプロンプトに条件付された各画像とそのアノテーションマスクの関節分布をキャプチャする。
これを行うことで、JoDiffusionはテキストプロンプトにのみ条件付きでペア画像とセマンティックに一貫性のあるアノテーションマスクを同時に生成できるため、スケーラビリティが向上する。
さらに、生成時に発生するアノテーションノイズを軽減するために、マスク最適化戦略が開発されている。
Pascal VOC、COCO、ADE20Kデータセットの実験では、JoDiffusionによって生成された注釈付きデータセットは、既存のメソッドと比較して、セマンティックセグメンテーションにおいて大幅にパフォーマンスが向上している。
関連論文リスト
- Seg4Diff: Unveiling Open-Vocabulary Segmentation in Text-to-Image Diffusion Transformers [56.76198904599581]
テキストと画像の拡散モデルは、言語翻訳において優れているため、モーダル間の注意機構を通じて暗黙的に概念を基礎づける。
近年のマルチモーダル拡散トランスフォーマーでは, 共用画像とテキストトークンを導入し, よりリッチでスケーラブルなクロスモーダルアライメントを実現している。
MM-DiTの注意構造を分析するための体系的フレームワークであるSeg4Diffを導入し,テキストから画像への意味情報の伝達方法に着目した。
論文 参考訳(メタデータ) (2025-09-22T17:59:54Z) - SeeDiff: Off-the-Shelf Seeded Mask Generation from Diffusion Models [16.109077391631917]
我々は,クロスアテンションだけで非常に粗い物体の局在が得られ,初期種子が得られることを示した。
また、単純なテキスト誘導合成画像は、一様背景を持つことが多く、対応を見つけるのが容易であることも観察した。
提案手法はSeeDiffと呼ばれ,Stable Diffusionから高品質なマスクをオフザシェルフで生成する。
論文 参考訳(メタデータ) (2025-07-26T05:44:00Z) - Free-Mask: A Novel Paradigm of Integration Between the Segmentation Diffusion Model and Image Editing [8.654930768124844]
セグメンテーションのための拡散モデルと高度な画像編集機能を組み合わせたフレームワーク textbfFree-Mask を提案する。
その結果、textbfFree-Mask は VOC 2012 ベンチマークで未確認のクラスに対して、新しい最先端の結果を達成していることがわかった。
論文 参考訳(メタデータ) (2024-11-04T05:39:01Z) - Open-Vocabulary Attention Maps with Token Optimization for Semantic Segmentation in Diffusion Models [1.6450779686641077]
OVAM(Open-Vocabulary Attention Maps)は,テキスト・画像拡散モデルのためのトレーニング不要な手法である。
既存の安定拡散拡張の中でこれらのトークンを評価する。
論文 参考訳(メタデータ) (2024-03-21T10:56:12Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - Exploring Limits of Diffusion-Synthetic Training with Weakly Supervised Semantic Segmentation [16.863038973001483]
本研究は拡散合成セマンティックセマンティックセグメンテーショントレーニングの3つの手法を紹介する。
第一に、信頼性に配慮した堅牢なトレーニングは、もともと弱い教師付き学習で用いられ、合成マスクの品質が不十分なセグメンテーションに役立つ。
第2に、画像Net-1kクラスの画像にバックボーンだけでなく、全体セグメンテーションモデルの大規模事前トレーニングを行うことで、下流のセグメンテーションタスクにメリットがある。
第3に,テキストリソースの制限により,トレーニング画像のスケールアップと多様化を図るために,プロンプトテキストセットにプロンプト拡張,データ拡張を導入する。
論文 参考訳(メタデータ) (2023-09-04T05:34:19Z) - DiffuMask: Synthesizing Images with Pixel-level Annotations for Semantic
Segmentation Using Diffusion Models [68.21154597227165]
本研究では,オフザシェルフ安定拡散モデルにより生成された合成画像の正確なセマンティックマスクを自動で取得できることを示す。
我々のアプローチはDiffuMaskと呼ばれ、テキストと画像間の相互注意マップの可能性を利用しています。
論文 参考訳(メタデータ) (2023-03-21T08:43:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。