論文の概要: EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models
- arxiv url: http://arxiv.org/abs/2401.11739v1
- Date: Mon, 22 Jan 2024 07:34:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 15:01:07.419566
- Title: EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models
- Title(参考訳): EmerDiff: 拡散モデルにおけるピクセルレベルのセマンティック知識の創出
- Authors: Koichi Namekata, Amirmojtaba Sabour, Sanja Fidler, Seung Wook Kim
- Abstract要約: 我々は、追加の訓練をすることなく、きめ細かなセグメンテーションマップを生成できる画像セグメンタを開発した。
低次元特徴写像の空間的位置と画像画素間の意味的対応を同定する。
大規模な実験では、生成したセグメンテーションマップがよく説明され、画像の細部を捉えることが示されている。
- 参考スコア(独自算出の注目度): 52.3015009878545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have recently received increasing research attention for
their remarkable transfer abilities in semantic segmentation tasks. However,
generating fine-grained segmentation masks with diffusion models often requires
additional training on annotated datasets, leaving it unclear to what extent
pre-trained diffusion models alone understand the semantic relations of their
generated images. To address this question, we leverage the semantic knowledge
extracted from Stable Diffusion (SD) and aim to develop an image segmentor
capable of generating fine-grained segmentation maps without any additional
training. The primary difficulty stems from the fact that semantically
meaningful feature maps typically exist only in the spatially lower-dimensional
layers, which poses a challenge in directly extracting pixel-level semantic
relations from these feature maps. To overcome this issue, our framework
identifies semantic correspondences between image pixels and spatial locations
of low-dimensional feature maps by exploiting SD's generation process and
utilizes them for constructing image-resolution segmentation maps. In extensive
experiments, the produced segmentation maps are demonstrated to be well
delineated and capture detailed parts of the images, indicating the existence
of highly accurate pixel-level semantic knowledge in diffusion models.
- Abstract(参考訳): 拡散モデルは最近、セマンティックセグメンテーションタスクにおける顕著な伝達能力について研究の注目を集めている。
しかし、拡散モデルによるきめ細かいセグメンテーションマスクの生成は、しばしば注釈付きデータセットに対する追加のトレーニングを必要とし、事前訓練された拡散モデルだけで生成した画像の意味関係がどの程度理解されているかは明らかでない。
この問題に対処するために,安定拡散(sd)から抽出した意味的知識を活用し,追加のトレーニングなしに細粒度セグメンテーションマップを生成可能な画像セグメンタの開発を目指す。
主な難点は、意味的に意味のある特徴マップが通常、空間的に低次元の層にのみ存在するという事実であり、これらの特徴マップからピクセルレベルの意味関係を直接抽出することの難しさである。
この問題を解決するために,SDの生成プロセスを利用して,画像画素と低次元特徴マップの空間的位置のセマンティック対応を識別し,画像解像度分割マップを構築する。
広範囲な実験において、生成したセグメンテーションマップは、画像の詳細な部分を読み取ることで、拡散モデルにおける高精度なピクセルレベルの意味知識の存在が示される。
関連論文リスト
- Learned representation-guided diffusion models for large-image
generation [60.698616089211505]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Diffusion Model is Secretly a Training-free Open Vocabulary Semantic
Segmenter [47.29967666846132]
生成テキストから画像への拡散モデルは非常に効率的なオープン語彙セマンティックセマンティックセマンティクスである。
我々はDiffSegmenterという新しいトレーニング不要のアプローチを導入し、入力テキストに意味的に忠実な現実的なオブジェクトを生成する。
3つのベンチマークデータセットの大規模な実験により、提案したDiffSegmenterは、オープン語彙セマンティックセマンティックセグメンテーションの印象的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-09-06T06:31:08Z) - Attention as Annotation: Generating Images and Pseudo-masks for Weakly
Supervised Semantic Segmentation with Diffusion [10.873354142424697]
本稿では,実際の画像や手動のアノテーションに依存しない意味的セグメンテーションのトレーニング手法を提案する。
提案手法は,テキスト・ツー・イメージ拡散モデルにより生成された画像と内部のテキスト・ツー・イメージ・クロスアテンションを併用して,疑似マスクの監督を行う。
実験により、attn2maskは、セグメント化に実際のトレーニングデータを使用しないPASCAL VOCで有望な結果を達成することを示し、また、よりクラスのシナリオであるImageNetセグメンテーションにセグメンテーションをスケールアップすることも有用である。
論文 参考訳(メタデータ) (2023-09-04T05:34:19Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - Unsupervised Semantic Correspondence Using Stable Diffusion [27.355330079806027]
我々は,この意味的知識を拡散モデル内で活用し,意味的対応を見いだせることを示す。
我々はこれらのモデルの迅速な埋め込みを最適化し、関心のある領域に最大限の注意を払う。
我々は、PF-Willow、CUB-200、SPair-71kデータセットにおいて、既存の弱い、または教師なしの手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-05-24T21:34:34Z) - Stochastic Segmentation with Conditional Categorical Diffusion Models [3.8168879948759953]
Denoising Diffusion Probabilistic Models に基づくセマンティックセグメンテーションのための条件カテゴリー拡散モデル(CCDM)を提案する。
以上の結果から,CCDMはLIDC上での最先端性能を実現し,従来のセグメンテーションデータセットであるCityscapesのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-03-15T19:16:47Z) - Diffusion Models for Implicit Image Segmentation Ensembles [1.444701913511243]
拡散モデルに基づく新しいセマンティックセグメンテーション手法を提案する。
トレーニングとサンプリングの手法を改良することにより,拡散モデルが医用画像の病変分割を行うことができることを示す。
最先端セグメンテーションモデルと比較して,本手法は良好なセグメンテーション結果と有意義な不確実性マップが得られる。
論文 参考訳(メタデータ) (2021-12-06T16:28:15Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。