論文の概要: Diffusion Model as a Generalist Segmentation Learner
- arxiv url: http://arxiv.org/abs/2604.24575v1
- Date: Mon, 27 Apr 2026 15:04:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.106948
- Title: Diffusion Model as a Generalist Segmentation Learner
- Title(参考訳): 一般のセグメンテーション学習者としての拡散モデル
- Authors: Haoxiao Wang, Antao Xiang, Haiyang Sun, Peilin Sun, Changhao Pan, Yifu Chen, Minjie Hong, Weijie Wang, Shuang Chen, Yue Chen, Zhou Zhao,
- Abstract要約: 本稿では、事前学習した拡散モデルを統一されたフレームワークに再利用するDiGSeg(Diffusion Models as a Generalist Learner)を紹介する。
並列CLIP対応のテキストパスは、複数のスケールで言語機能を注入し、クエリと進化する視覚的表現との整合を可能にする。
この設計は、既製の拡散バックボーンを普遍的なインターフェースに変換し、外観と任意のテキストプロンプトの両方に条件付けされた構造化セグメンテーションマスクを生成する。
- 参考スコア(独自算出の注目度): 44.5756731086797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models are primarily trained for image synthesis, yet their denoising trajectories encode rich, spatially aligned visual priors. In this paper, we demonstrate that these priors can be utilized for text-conditioned semantic and open-vocabulary segmentation, and this approach can be generalized to various downstream tasks to make a general-purpose diffusion segmentation framework. Concretely, we introduce DiGSeg (Diffusion Models as a Generalist Segmentation Learner), which repurposes a pretrained diffusion model into a unified segmentation framework. Our approach encodes the input image and ground-truth mask into the latent space and concatenates them as conditioning signals for the diffusion U-Net. A parallel CLIP-aligned text pathway injects language features across multiple scales, enabling the model to align textual queries with evolving visual representations. This design transforms an off-the-shelf diffusion backbone into a universal interface that produces structured segmentation masks conditioned on both appearance and arbitrary text prompts. Extensive experiments demonstrate state-of-the-art performance on standard semantic segmentation benchmarks, as well as strong open-vocabulary generalization and cross-domain transfer to medical, remote sensing, and agricultural scenarios-without domain-specific architectural customization. These results indicate that modern diffusion backbones can serve as generalist segmentation learners rather than pure generators, narrowing the gap between visual generation and visual understanding.
- Abstract(参考訳): 拡散モデルは、主に画像合成のために訓練されているが、その識別軌道は、リッチで空間的に整列した視覚的先行を符号化している。
本稿では,テキスト条件のセマンティックスとオープンボキャブラリセグメンテーションにこれらの先例を活用できることを示し,本手法を様々な下流タスクに一般化し,汎用的な拡散セグメンテーションフレームワークを構築する。
具体的には,DiGSeg(Diffusion Models as a Generalist Segmentation Learner)を導入し,事前学習した拡散モデルを統合セグメンテーションフレームワークに再利用する。
提案手法は,入力画像と接地トラスマスクを潜在空間に符号化し,拡散U-Netの条件信号として結合する。
並列CLIP対応のテキストパスは、複数のスケールで言語機能を注入することで、テキストクエリと進化する視覚的表現との整合を可能にする。
この設計は、既製の拡散バックボーンを普遍的なインターフェースに変換し、外観と任意のテキストプロンプトの両方に条件付けされた構造化セグメンテーションマスクを生成する。
大規模な実験では、標準的なセマンティックセグメンテーションベンチマークの最先端性能に加えて、強力なオープンボキャブラリの一般化と、医療、リモートセンシング、農業シナリオへのクロスドメイン転送が、ドメイン固有のアーキテクチャのカスタマイズを伴わない状態で実証されている。
これらの結果から,現代の拡散バックボーンは純粋なジェネレータよりも汎用的なセグメンテーション学習として機能し,視覚生成と視覚理解のギャップを狭めることが示唆された。
関連論文リスト
- Seg4Diff: Unveiling Open-Vocabulary Segmentation in Text-to-Image Diffusion Transformers [56.76198904599581]
テキストと画像の拡散モデルは、言語翻訳において優れているため、モーダル間の注意機構を通じて暗黙的に概念を基礎づける。
近年のマルチモーダル拡散トランスフォーマーでは, 共用画像とテキストトークンを導入し, よりリッチでスケーラブルなクロスモーダルアライメントを実現している。
MM-DiTの注意構造を分析するための体系的フレームワークであるSeg4Diffを導入し,テキストから画像への意味情報の伝達方法に着目した。
論文 参考訳(メタデータ) (2025-09-22T17:59:54Z) - GS: Generative Segmentation via Label Diffusion [59.380173266566715]
言語駆動のイメージセグメンテーションは、自然言語表現に対応する画像の領域を分割するモデルを必要とする、視覚言語理解の基本的なタスクである。
近年の拡散モデルがこの領域に導入されているが、既存のアプローチは画像中心のままである。
生成タスクとしてセグメンテーション自体を定式化する新しいフレームワークであるGS(Generative Label)を提案する。
実験の結果,GSは既存の差別的・拡散的手法を著しく上回り,言語駆動セグメンテーションのための新たな最先端技術が確立された。
論文 参考訳(メタデータ) (2025-08-27T16:28:15Z) - Decoding Diffusion: A Scalable Framework for Unsupervised Analysis of Latent Space Biases and Representations Using Natural Language Prompts [68.48103545146127]
本稿では拡散潜在空間の教師なし探索のための新しい枠組みを提案する。
我々は、自然言語のプロンプトと画像キャプションを直接利用して、遅延方向をマップする。
本手法は,拡散モデルに符号化された意味的知識をよりスケーラブルで解釈可能な理解を提供する。
論文 参考訳(メタデータ) (2024-10-25T21:44:51Z) - Diffusion Features to Bridge Domain Gap for Semantic Segmentation [2.8616666231199424]
本稿では, 拡散モデルの特徴を効率的に活用するために, サンプリングおよび融合技術を活用するアプローチについて検討する。
テキスト・画像生成能力の強みを生かして、暗黙的に後部知識を学習する新しいトレーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2024-06-02T15:33:46Z) - Training-Free Open-Vocabulary Segmentation with Offline Diffusion-Augmented Prototype Generation [44.008094698200026]
FreeDAはオープン語彙セマンティックセグメンテーションのためのトレーニング不要な拡散拡張手法である。
FreeDAは5つのデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-09T18:00:25Z) - Diffusion Model is Secretly a Training-free Open Vocabulary Semantic
Segmenter [47.29967666846132]
生成テキストから画像への拡散モデルは非常に効率的なオープン語彙セマンティックセマンティックセマンティクスである。
我々はDiffSegmenterという新しいトレーニング不要のアプローチを導入し、入力テキストに意味的に忠実な現実的なオブジェクトを生成する。
3つのベンチマークデータセットの大規模な実験により、提案したDiffSegmenterは、オープン語彙セマンティックセマンティックセグメンテーションの印象的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-09-06T06:31:08Z) - Prompting Diffusion Representations for Cross-Domain Semantic
Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。
本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文 参考訳(メタデータ) (2023-07-05T09:28:25Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。