論文の概要: Guiding Text-to-Image Diffusion Model Towards Grounded Generation
- arxiv url: http://arxiv.org/abs/2301.05221v1
- Date: Thu, 12 Jan 2023 18:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 14:46:55.051407
- Title: Guiding Text-to-Image Diffusion Model Towards Grounded Generation
- Title(参考訳): グラウンドドジェネレーションに向けたテキスト・画像拡散モデルの誘導
- Authors: Ziyi Li, Qinye Zhou, Xiaoyun Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie
- Abstract要約: 本稿では,テキストプロンプトに記述された対応する視覚的エンティティに対する画像とセグメンテーションマスクを同時に生成するオープン語彙オブジェクトグラウンド機能を備えた,事前学習されたテキスト・ツー・イメージ拡散モデルを強化する。
このようなデータセット上で標準セグメンテーションモデルをトレーニングすると、ゼロショットセグメンテーション(ZS3)ベンチマーク上での競争性能が示され、識別タスクに強力な拡散モデルを採用する新たな機会が開かれる。
- 参考スコア(独自算出の注目度): 47.36233857830832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this paper is to augment a pre-trained text-to-image diffusion
model with the ability of open-vocabulary objects grounding, i.e.,
simultaneously generating images and segmentation masks for the corresponding
visual entities described in the text prompt. We make the following
contributions: (i) we insert a grounding module into the existing diffusion
model, that can be trained to align the visual and textual embedding space of
the diffusion model with only a small number of object categories; (ii) we
propose an automatic pipeline for constructing a dataset, that consists of
{image, segmentation mask, text prompt} triplets, to train the proposed
grounding module; (iii) we evaluate the performance of open-vocabulary
grounding on images generated from the text-to-image diffusion model and show
that the module can well segment the objects of categories beyond seen ones at
training time; (iv) we adopt the guided diffusion model to build a synthetic
semantic segmentation dataset, and show that training a standard segmentation
model on such dataset demonstrates competitive performance on zero-shot
segmentation(ZS3) benchmark, which opens up new opportunities for adopting the
powerful diffusion model for discriminative tasks.
- Abstract(参考訳): 本論文の目的は,テキストプロンプトに記述された対応する視覚的実体に対する画像とセグメンテーションマスクを同時に生成するオープン語彙オブジェクトグラウンドリング機能を備えた,事前訓練されたテキスト・ツー・イメージ拡散モデルを強化することである。
私たちは次のような貢献をします
(i)既存の拡散モデルに接地モジュールを挿入し、少量のオブジェクトカテゴリだけで拡散モデルの視覚的およびテキスト的埋め込み空間を整列するように訓練することができる。
i) 提案した接地モジュールをトレーニングするために,画像,セグメンテーションマスク,テキストプロンプトからなるデータセットを構築するための自動パイプラインを提案する。
3) テキスト・画像拡散モデルから生成した画像に基づいてオープン語彙グラウンドディングの性能を評価し, 学習時に見られたものを超えるカテゴリのオブジェクトを適切に分割できることを示せる。
(4) 合成セマンティックセマンティックセグメンテーションデータセットを構築するために誘導拡散モデルを採用し, それらのデータセット上で標準セグメンテーションモデルをトレーニングすると, ゼロショットセグメンテーション(ZS3)ベンチマーク上での競合性能が示され, 識別タスクに強力な拡散モデルを採用する新たな機会が開けることを示した。
関連論文リスト
- MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary
Instance Segmentation [110.23359628821542]
本稿では,大語彙のインスタンスセグメンテーションのための拡散に基づくデータ拡張手法を提案する。
本手法はトレーニングフリーであり,ラベル管理に依存しない。
MosaicFusionは既存のインスタンスセグメンテーションモデルの性能を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2023-09-22T17:59:42Z) - Diffusion Model is Secretly a Training-free Open Vocabulary Semantic
Segmenter [47.29967666846132]
生成テキストから画像への拡散モデルは非常に効率的なオープン語彙セマンティックセマンティックセマンティクスである。
我々はDiffSegmenterという新しいトレーニング不要のアプローチを導入し、入力テキストに意味的に忠実な現実的なオブジェクトを生成する。
3つのベンチマークデータセットの大規模な実験により、提案したDiffSegmenterは、オープン語彙セマンティックセマンティックセグメンテーションの印象的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-09-06T06:31:08Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [80.82832715884597]
生成拡散モデルにより生成された画像からテキストプロンプトを予測する新しいタスクを導入する。
本稿では,複数ラベルの語彙分類を目的とし,協調的即時回帰と複数ラベルの語彙分類からなる新しい学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z) - Diffusion Models for Zero-Shot Open-Vocabulary Segmentation [97.25882784890456]
本稿では,ゼロショット開語彙セグメンテーションのための新しい手法を提案する。
我々は,大規模テキスト・画像拡散モデルの生成特性を利用して,支援画像の集合をサンプリングする。
提案手法は,既存の事前学習型自己教師型特徴抽出器を自然言語で抽出するのに有効であることを示す。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - SceneGenie: Scene Graph Guided Diffusion Models for Image Synthesis [38.22195812238951]
拡散モデルにおけるサンプリングプロセスのための新しいガイダンス手法を提案する。
提案手法では,CLIP埋め込みのセマンティックな特徴によってモデルをガイドし,幾何学的制約を強制する。
本研究は,拡散モデルサンプリングプロセスにおいて,境界ボックスとセグメンテーションマップガイダンスを組み込むことの有効性を示した。
論文 参考訳(メタデータ) (2023-04-28T00:14:28Z) - IFSeg: Image-free Semantic Segmentation via Vision-Language Model [67.62922228676273]
目的は,対象のセマンティックなカテゴリの集合にのみ依存するセマンティックセマンティックセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなタスクを実現することである。
本研究では、ランダムな意味圏の2次元マップと、対応する単語トークンの別のマップを作成することで、この人工的なトレーニングデータを構築する。
本モデルでは,本課題の効果的なベースラインを確立するだけでなく,既存手法と比較して高い性能を示す。
論文 参考訳(メタデータ) (2023-03-25T08:19:31Z) - Stochastic Segmentation with Conditional Categorical Diffusion Models [3.8168879948759953]
Denoising Diffusion Probabilistic Models に基づくセマンティックセグメンテーションのための条件カテゴリー拡散モデル(CCDM)を提案する。
以上の結果から,CCDMはLIDC上での最先端性能を実現し,従来のセグメンテーションデータセットであるCityscapesのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-03-15T19:16:47Z) - Diffusion Models for Implicit Image Segmentation Ensembles [1.444701913511243]
拡散モデルに基づく新しいセマンティックセグメンテーション手法を提案する。
トレーニングとサンプリングの手法を改良することにより,拡散モデルが医用画像の病変分割を行うことができることを示す。
最先端セグメンテーションモデルと比較して,本手法は良好なセグメンテーション結果と有意義な不確実性マップが得られる。
論文 参考訳(メタデータ) (2021-12-06T16:28:15Z) - Label-Efficient Semantic Segmentation with Diffusion Models [27.01899943738203]
拡散モデルは意味的セグメンテーションの道具としても機能することを示した。
特に、いくつかの事前訓練拡散モデルに対して、逆拡散過程のマルコフステップを実行するネットワークからの中間活性化について検討する。
これらのアクティベーションは、入力画像から意味情報を効果的にキャプチャし、セグメンテーション問題に対して優れたピクセルレベルの表現であることを示す。
論文 参考訳(メタデータ) (2021-12-06T15:55:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。