論文の概要: Diffusion Model is Secretly a Training-free Open Vocabulary Semantic
Segmenter
- arxiv url: http://arxiv.org/abs/2309.02773v1
- Date: Wed, 6 Sep 2023 06:31:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 16:38:18.230967
- Title: Diffusion Model is Secretly a Training-free Open Vocabulary Semantic
Segmenter
- Title(参考訳): diffusion modelは、ひそかにトレーニングフリーなオープン語彙セグメンタである
- Authors: Jinglong Wang, Xiawei Li, Jing Zhang, Qingyuan Xu, Qin Zhou, Qian Yu,
Lu Sheng, Dong Xu
- Abstract要約: セマンティックセグメンテーションに関わる課題に対処するために,DiffSegmenterという新たなトレーニングフリーアプローチを導入する。
入力画像と候補クラスを既訓練条件付き潜伏拡散モデルに入力することにより、クロスアテンションマップを直接セグメンテーションスコアとして使用する。
3つのベンチマークデータセットの大規模な実験により、提案したDiffSegmenterは、オープン語彙セマンティックセマンティックセグメンテーションの印象的な結果が得られることが示された。
- 参考スコア(独自算出の注目度): 47.29967666846132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has explored the utilization of pre-trained text-image
discriminative models, such as CLIP, to tackle the challenges associated with
open-vocabulary semantic segmentation. However, it is worth noting that the
alignment process based on contrastive learning employed by these models may
unintentionally result in the loss of crucial localization information and
object completeness, which are essential for achieving accurate semantic
segmentation. More recently, there has been an emerging interest in extending
the application of diffusion models beyond text-to-image generation tasks,
particularly in the domain of semantic segmentation. These approaches utilize
diffusion models either for generating annotated data or for extracting
features to facilitate semantic segmentation. This typically involves training
segmentation models by generating a considerable amount of synthetic data or
incorporating additional mask annotations. To this end, we uncover the
potential of generative text-to-image conditional diffusion models as highly
efficient open-vocabulary semantic segmenters, and introduce a novel
training-free approach named DiffSegmenter. Specifically, by feeding an input
image and candidate classes into an off-the-shelf pre-trained conditional
latent diffusion model, the cross-attention maps produced by the denoising
U-Net are directly used as segmentation scores, which are further refined and
completed by the followed self-attention maps. Additionally, we carefully
design effective textual prompts and a category filtering mechanism to further
enhance the segmentation results. Extensive experiments on three benchmark
datasets show that the proposed DiffSegmenter achieves impressive results for
open-vocabulary semantic segmentation.
- Abstract(参考訳): 近年、CLIPのような事前訓練されたテキスト画像識別モデルを用いて、オープン語彙セマンティックセマンティックセグメンテーションに関わる課題に取り組む研究が進められている。
しかし、これらのモデルが用いた対照的な学習に基づくアライメントプロセスは、正確なセマンティックセグメンテーションを実現するのに不可欠である、重要なローカライズ情報とオブジェクト完全性の喪失を意図せずに引き起こす可能性があることに注意する必要がある。
最近では、特にセマンティックセグメンテーションの領域において、テキストから画像生成タスク以外の拡散モデルの適用拡大への関心が高まっている。
これらの手法は、注釈付きデータの生成や意味的セグメンテーションを容易にする特徴抽出に拡散モデルを利用する。
これは典型的には、大量の合成データを生成したり、追加のマスクアノテーションを組み込んだセグメンテーションモデルを訓練する。
そこで本研究では, 生成文から画像への条件付き拡散モデルが, 高効率なオープン語彙セマンティックセマンティックセマンティクスとしての可能性を明らかにするとともに, DiffSegmenter という新たなトレーニング不要アプローチを導入する。
具体的には、入力画像と候補クラスを既成の事前学習された条件付き潜在拡散モデルに供給することにより、デノイジングu-netによって生成されたクロスアテンションマップをセグメンテーションスコアとして直接使用し、その後の自己アテンションマップによりさらに洗練され完成される。
さらに,有効テキストプロンプトとカテゴリフィルタリング機構を慎重に設計し,セグメンテーション結果をさらに強化する。
3つのベンチマークデータセットに関する広範囲な実験により、提案するdiffsegmenterは、open-vocabulary semantic segmentationの印象的な結果を得た。
関連論文リスト
- Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。
我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。
そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文 参考訳(メタデータ) (2024-10-03T10:33:49Z) - EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models [52.3015009878545]
我々は、追加の訓練をすることなく、きめ細かなセグメンテーションマップを生成できる画像セグメンタを開発した。
低次元特徴写像の空間的位置と画像画素間の意味的対応を同定する。
大規模な実験では、生成したセグメンテーションマップがよく説明され、画像の細部を捉えることが示されている。
論文 参考訳(メタデータ) (2024-01-22T07:34:06Z) - Prompting Diffusion Representations for Cross-Domain Semantic
Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。
本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文 参考訳(メタデータ) (2023-07-05T09:28:25Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Semantic Segmentation by Semantic Proportions [6.171990546748665]
セマンティック・セグメンテーションのための新しい手法を提案し、個々のセマンティック・クラス比の粗い情報を必要とする。
これにより、データアノテーションプロセスが大幅に単純化され、アノテーションの時間、コスト、ストレージスペースが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-24T22:51:52Z) - Open-vocabulary Object Segmentation with Diffusion Models [47.36233857830832]
本研究の目的は,事前訓練されたテキスト・画像拡散モデルから,セグメント化マップの形式で視覚言語対応を抽出することである。
合成セマンティックセグメンテーションデータセットを構築するために拡張拡散モデルを採用し、そのようなデータセット上で標準セグメンテーションモデルをトレーニングすることで、ゼロショットセグメンテーション(ZS3)ベンチマーク上での競合性能を示すことを示す。
論文 参考訳(メタデータ) (2023-01-12T18:59:08Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Label-Efficient Semantic Segmentation with Diffusion Models [27.01899943738203]
拡散モデルは意味的セグメンテーションの道具としても機能することを示した。
特に、いくつかの事前訓練拡散モデルに対して、逆拡散過程のマルコフステップを実行するネットワークからの中間活性化について検討する。
これらのアクティベーションは、入力画像から意味情報を効果的にキャプチャし、セグメンテーション問題に対して優れたピクセルレベルの表現であることを示す。
論文 参考訳(メタデータ) (2021-12-06T15:55:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。