論文の概要: EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models
- arxiv url: http://arxiv.org/abs/2401.11739v1
- Date: Mon, 22 Jan 2024 07:34:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 15:01:07.419566
- Title: EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models
- Title(参考訳): EmerDiff: 拡散モデルにおけるピクセルレベルのセマンティック知識の創出
- Authors: Koichi Namekata, Amirmojtaba Sabour, Sanja Fidler, Seung Wook Kim
- Abstract要約: 我々は、追加の訓練をすることなく、きめ細かなセグメンテーションマップを生成できる画像セグメンタを開発した。
低次元特徴写像の空間的位置と画像画素間の意味的対応を同定する。
大規模な実験では、生成したセグメンテーションマップがよく説明され、画像の細部を捉えることが示されている。
- 参考スコア(独自算出の注目度): 52.3015009878545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have recently received increasing research attention for
their remarkable transfer abilities in semantic segmentation tasks. However,
generating fine-grained segmentation masks with diffusion models often requires
additional training on annotated datasets, leaving it unclear to what extent
pre-trained diffusion models alone understand the semantic relations of their
generated images. To address this question, we leverage the semantic knowledge
extracted from Stable Diffusion (SD) and aim to develop an image segmentor
capable of generating fine-grained segmentation maps without any additional
training. The primary difficulty stems from the fact that semantically
meaningful feature maps typically exist only in the spatially lower-dimensional
layers, which poses a challenge in directly extracting pixel-level semantic
relations from these feature maps. To overcome this issue, our framework
identifies semantic correspondences between image pixels and spatial locations
of low-dimensional feature maps by exploiting SD's generation process and
utilizes them for constructing image-resolution segmentation maps. In extensive
experiments, the produced segmentation maps are demonstrated to be well
delineated and capture detailed parts of the images, indicating the existence
of highly accurate pixel-level semantic knowledge in diffusion models.
- Abstract(参考訳): 拡散モデルは最近、セマンティックセグメンテーションタスクにおける顕著な伝達能力について研究の注目を集めている。
しかし、拡散モデルによるきめ細かいセグメンテーションマスクの生成は、しばしば注釈付きデータセットに対する追加のトレーニングを必要とし、事前訓練された拡散モデルだけで生成した画像の意味関係がどの程度理解されているかは明らかでない。
この問題に対処するために,安定拡散(sd)から抽出した意味的知識を活用し,追加のトレーニングなしに細粒度セグメンテーションマップを生成可能な画像セグメンタの開発を目指す。
主な難点は、意味的に意味のある特徴マップが通常、空間的に低次元の層にのみ存在するという事実であり、これらの特徴マップからピクセルレベルの意味関係を直接抽出することの難しさである。
この問題を解決するために,SDの生成プロセスを利用して,画像画素と低次元特徴マップの空間的位置のセマンティック対応を識別し,画像解像度分割マップを構築する。
広範囲な実験において、生成したセグメンテーションマップは、画像の詳細な部分を読み取ることで、拡散モデルにおける高精度なピクセルレベルの意味知識の存在が示される。
関連論文リスト
- Decoding Diffusion: A Scalable Framework for Unsupervised Analysis of Latent Space Biases and Representations Using Natural Language Prompts [68.48103545146127]
本稿では拡散潜在空間の教師なし探索のための新しい枠組みを提案する。
我々は、自然言語のプロンプトと画像キャプションを直接利用して、遅延方向をマップする。
本手法は,拡散モデルに符号化された意味的知識をよりスケーラブルで解釈可能な理解を提供する。
論文 参考訳(メタデータ) (2024-10-25T21:44:51Z) - Enhancing Label-efficient Medical Image Segmentation with Text-guided Diffusion Models [5.865983529245793]
TextDiffは、安価な医療用テキストアノテーションを通じて意味表現を改善する。
その結果,TextDiffは,少数のトレーニングサンプルのみで,最先端のマルチモーダルセグメンテーション手法よりもはるかに優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-07T10:21:08Z) - SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。
我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文 参考訳(メタデータ) (2024-03-25T10:30:22Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Diffusion Model is Secretly a Training-free Open Vocabulary Semantic
Segmenter [47.29967666846132]
生成テキストから画像への拡散モデルは非常に効率的なオープン語彙セマンティックセマンティックセマンティクスである。
我々はDiffSegmenterという新しいトレーニング不要のアプローチを導入し、入力テキストに意味的に忠実な現実的なオブジェクトを生成する。
3つのベンチマークデータセットの大規模な実験により、提案したDiffSegmenterは、オープン語彙セマンティックセマンティックセグメンテーションの印象的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-09-06T06:31:08Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - Semantic Segmentation by Semantic Proportions [6.171990546748665]
セマンティック・セグメンテーションのための新しい手法を提案し、個々のセマンティック・クラス比の粗い情報を必要とする。
これにより、データアノテーションプロセスが大幅に単純化され、アノテーションの時間、コスト、ストレージスペースが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-24T22:51:52Z) - Unsupervised Semantic Correspondence Using Stable Diffusion [27.355330079806027]
我々は,この意味的知識を拡散モデル内で活用し,意味的対応を見いだせることを示す。
我々はこれらのモデルの迅速な埋め込みを最適化し、関心のある領域に最大限の注意を払う。
我々は、PF-Willow、CUB-200、SPair-71kデータセットにおいて、既存の弱い、または教師なしの手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-05-24T21:34:34Z) - Stochastic Segmentation with Conditional Categorical Diffusion Models [3.8168879948759953]
Denoising Diffusion Probabilistic Models に基づくセマンティックセグメンテーションのための条件カテゴリー拡散モデル(CCDM)を提案する。
以上の結果から,CCDMはLIDC上での最先端性能を実現し,従来のセグメンテーションデータセットであるCityscapesのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-03-15T19:16:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。