論文の概要: Open-vocabulary Object Segmentation with Diffusion Models
- arxiv url: http://arxiv.org/abs/2301.05221v2
- Date: Thu, 10 Aug 2023 16:05:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 16:27:00.667604
- Title: Open-vocabulary Object Segmentation with Diffusion Models
- Title(参考訳): 拡散モデルを用いた開語彙オブジェクトセグメンテーション
- Authors: Ziyi Li, Qinye Zhou, Xiaoyun Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie
- Abstract要約: 本研究の目的は,事前訓練されたテキスト・画像拡散モデルから,セグメント化マップの形式で視覚言語対応を抽出することである。
合成セマンティックセグメンテーションデータセットを構築するために拡張拡散モデルを採用し、そのようなデータセット上で標準セグメンテーションモデルをトレーニングすることで、ゼロショットセグメンテーション(ZS3)ベンチマーク上での競合性能を示すことを示す。
- 参考スコア(独自算出の注目度): 47.36233857830832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this paper is to extract the visual-language correspondence from
a pre-trained text-to-image diffusion model, in the form of segmentation map,
i.e., simultaneously generating images and segmentation masks for the
corresponding visual entities described in the text prompt. We make the
following contributions: (i) we pair the existing Stable Diffusion model with a
novel grounding module, that can be trained to align the visual and textual
embedding space of the diffusion model with only a small number of object
categories; (ii) we establish an automatic pipeline for constructing a dataset,
that consists of {image, segmentation mask, text prompt} triplets, to train the
proposed grounding module; (iii) we evaluate the performance of open-vocabulary
grounding on images generated from the text-to-image diffusion model and show
that the module can well segment the objects of categories beyond seen ones at
training time; (iv) we adopt the augmented diffusion model to build a synthetic
semantic segmentation dataset, and show that, training a standard segmentation
model on such dataset demonstrates competitive performance on the zero-shot
segmentation(ZS3) benchmark, which opens up new opportunities for adopting the
powerful diffusion model for discriminative tasks.
- Abstract(参考訳): 本研究の目的は,テキストプロンプトに記述された対応する視覚エンティティに対して,画像とセグメンテーションマスクを同時に生成するセグメンテーションマップという形で,事前学習したテキスト間拡散モデルから視覚言語対応を抽出することである。
私たちは次のような貢献をします
(i)既存の安定拡散モデルと新規な接地モジュールを組み合わせることにより、その拡散モデルの視覚的およびテキスト的埋め込み空間を少数の対象カテゴリに合わせるように訓練することができる。
(ii) 提案する接地モジュールを訓練するために,<画像,セグメンテーションマスク,テキストプロンプト>トリプレットからなるデータセットを構築するための自動パイプラインを確立する。
3) テキスト・画像拡散モデルから生成した画像に基づいてオープン語彙グラウンドディングの性能を評価し, 学習時に見られたものを超えるカテゴリのオブジェクトを適切に分割できることを示せる。
(iv)我々は,合成意味セグメンテーションデータセットを構築するために拡張拡散モデルを採用し,そのようなデータセット上で標準セグメンテーションモデルをトレーニングすることで,ゼロショットセグメンテーション(zs3)ベンチマークにおける競争力を示すことを示す。
関連論文リスト
- Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。
我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。
そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文 参考訳(メタデータ) (2024-10-03T10:33:49Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Diffusion Model is Secretly a Training-free Open Vocabulary Semantic
Segmenter [47.29967666846132]
生成テキストから画像への拡散モデルは非常に効率的なオープン語彙セマンティックセマンティックセマンティクスである。
我々はDiffSegmenterという新しいトレーニング不要のアプローチを導入し、入力テキストに意味的に忠実な現実的なオブジェクトを生成する。
3つのベンチマークデータセットの大規模な実験により、提案したDiffSegmenterは、オープン語彙セマンティックセマンティックセグメンテーションの印象的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-09-06T06:31:08Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - SceneGenie: Scene Graph Guided Diffusion Models for Image Synthesis [38.22195812238951]
拡散モデルにおけるサンプリングプロセスのための新しいガイダンス手法を提案する。
提案手法では,CLIP埋め込みのセマンティックな特徴によってモデルをガイドし,幾何学的制約を強制する。
本研究は,拡散モデルサンプリングプロセスにおいて,境界ボックスとセグメンテーションマップガイダンスを組み込むことの有効性を示した。
論文 参考訳(メタデータ) (2023-04-28T00:14:28Z) - Diffusion Models for Implicit Image Segmentation Ensembles [1.444701913511243]
拡散モデルに基づく新しいセマンティックセグメンテーション手法を提案する。
トレーニングとサンプリングの手法を改良することにより,拡散モデルが医用画像の病変分割を行うことができることを示す。
最先端セグメンテーションモデルと比較して,本手法は良好なセグメンテーション結果と有意義な不確実性マップが得られる。
論文 参考訳(メタデータ) (2021-12-06T16:28:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。