論文の概要: Diffusion Model is Secretly a Training-free Open Vocabulary Semantic
Segmenter
- arxiv url: http://arxiv.org/abs/2309.02773v3
- Date: Mon, 22 Jan 2024 07:18:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 21:06:35.095239
- Title: Diffusion Model is Secretly a Training-free Open Vocabulary Semantic
Segmenter
- Title(参考訳): diffusion modelは、ひそかにトレーニングフリーなオープン語彙セグメンタである
- Authors: Jinglong Wang, Xiawei Li, Jing Zhang, Qingyuan Xu, Qin Zhou, Qian Yu,
Lu Sheng, Dong Xu
- Abstract要約: 生成テキストから画像への拡散モデルは非常に効率的なオープン語彙セマンティックセマンティックセマンティクスである。
我々はDiffSegmenterという新しいトレーニング不要のアプローチを導入し、入力テキストに意味的に忠実な現実的なオブジェクトを生成する。
3つのベンチマークデータセットの大規模な実験により、提案したDiffSegmenterは、オープン語彙セマンティックセマンティックセグメンテーションの印象的な結果が得られることが示された。
- 参考スコア(独自算出の注目度): 47.29967666846132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The pre-trained text-image discriminative models, such as CLIP, has been
explored for open-vocabulary semantic segmentation with unsatisfactory results
due to the loss of crucial localization information and awareness of object
shapes. Recently, there has been a growing interest in expanding the
application of generative models from generation tasks to semantic
segmentation. These approaches utilize generative models either for generating
annotated data or extracting features to facilitate semantic segmentation. This
typically involves generating a considerable amount of synthetic data or
requiring additional mask annotations. To this end, we uncover the potential of
generative text-to-image diffusion models (e.g., Stable Diffusion) as highly
efficient open-vocabulary semantic segmenters, and introduce a novel
training-free approach named DiffSegmenter. The insight is that to generate
realistic objects that are semantically faithful to the input text, both the
complete object shapes and the corresponding semantics are implicitly learned
by diffusion models. We discover that the object shapes are characterized by
the self-attention maps while the semantics are indicated through the
cross-attention maps produced by the denoising U-Net, forming the basis of our
segmentation results.Additionally, we carefully design effective textual
prompts and a category filtering mechanism to further enhance the segmentation
results. Extensive experiments on three benchmark datasets show that the
proposed DiffSegmenter achieves impressive results for open-vocabulary semantic
segmentation.
- Abstract(参考訳): CLIPのような事前訓練されたテキスト画像識別モデルは、重要な局所化情報の欠如や物体形状の認識による不満足な結果を伴うオープン語彙セマンティックセグメンテーションのために検討されてきた。
近年,生成タスクからセマンティックセグメンテーションへの生成モデルの適用拡大への関心が高まっている。
これらのアプローチは、注釈付きデータを生成するか、セマンティックセグメンテーションを容易にするために特徴を抽出するために生成モデルを利用する。
これは典型的には大量の合成データを生成するか、追加のマスクアノテーションを必要とする。
この目的のために、高速なオープン語彙セマンティックセマンティックセマンティクスとして、生成的テキスト・画像拡散モデル(例えば、安定拡散)の可能性を明らかにし、DiffSegmenterという新しいトレーニング不要アプローチを導入する。
その洞察は、入力テキストに意味的に忠実な現実的なオブジェクトを生成するためには、完全なオブジェクト形状と対応するセマンティクスの両方が拡散モデルによって暗黙的に学習されるということである。
対象の形状を自己対応マップで特徴付けし,その意味を分断u-netで生成したクロスアテンションマップを通して示すことにより,セグメンテーション結果のベースとなることを見出し,さらに,効果的なテクスト的プロンプトとカテゴリフィルタリング機構を慎重に設計し,セグメンテーション結果をさらに強化する。
3つのベンチマークデータセットに関する広範囲な実験により、提案するdiffsegmenterは、open-vocabulary semantic segmentationの印象的な結果を得た。
関連論文リスト
- Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。
我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。
そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文 参考訳(メタデータ) (2024-10-03T10:33:49Z) - EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models [52.3015009878545]
我々は、追加の訓練をすることなく、きめ細かなセグメンテーションマップを生成できる画像セグメンタを開発した。
低次元特徴写像の空間的位置と画像画素間の意味的対応を同定する。
大規模な実験では、生成したセグメンテーションマップがよく説明され、画像の細部を捉えることが示されている。
論文 参考訳(メタデータ) (2024-01-22T07:34:06Z) - Prompting Diffusion Representations for Cross-Domain Semantic
Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。
本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文 参考訳(メタデータ) (2023-07-05T09:28:25Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Semantic Segmentation by Semantic Proportions [6.171990546748665]
セマンティック・セグメンテーションのための新しい手法を提案し、個々のセマンティック・クラス比の粗い情報を必要とする。
これにより、データアノテーションプロセスが大幅に単純化され、アノテーションの時間、コスト、ストレージスペースが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-24T22:51:52Z) - Open-vocabulary Object Segmentation with Diffusion Models [47.36233857830832]
本研究の目的は,事前訓練されたテキスト・画像拡散モデルから,セグメント化マップの形式で視覚言語対応を抽出することである。
合成セマンティックセグメンテーションデータセットを構築するために拡張拡散モデルを採用し、そのようなデータセット上で標準セグメンテーションモデルをトレーニングすることで、ゼロショットセグメンテーション(ZS3)ベンチマーク上での競合性能を示すことを示す。
論文 参考訳(メタデータ) (2023-01-12T18:59:08Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Label-Efficient Semantic Segmentation with Diffusion Models [27.01899943738203]
拡散モデルは意味的セグメンテーションの道具としても機能することを示した。
特に、いくつかの事前訓練拡散モデルに対して、逆拡散過程のマルコフステップを実行するネットワークからの中間活性化について検討する。
これらのアクティベーションは、入力画像から意味情報を効果的にキャプチャし、セグメンテーション問題に対して優れたピクセルレベルの表現であることを示す。
論文 参考訳(メタデータ) (2021-12-06T15:55:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。