論文の概要: Guiding Text-to-Image Diffusion Model Towards Grounded Generation
- arxiv url: http://arxiv.org/abs/2301.05221v1
- Date: Thu, 12 Jan 2023 18:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 14:46:55.051407
- Title: Guiding Text-to-Image Diffusion Model Towards Grounded Generation
- Title(参考訳): グラウンドドジェネレーションに向けたテキスト・画像拡散モデルの誘導
- Authors: Ziyi Li, Qinye Zhou, Xiaoyun Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie
- Abstract要約: 本稿では,テキストプロンプトに記述された対応する視覚的エンティティに対する画像とセグメンテーションマスクを同時に生成するオープン語彙オブジェクトグラウンド機能を備えた,事前学習されたテキスト・ツー・イメージ拡散モデルを強化する。
このようなデータセット上で標準セグメンテーションモデルをトレーニングすると、ゼロショットセグメンテーション(ZS3)ベンチマーク上での競争性能が示され、識別タスクに強力な拡散モデルを採用する新たな機会が開かれる。
- 参考スコア(独自算出の注目度): 47.36233857830832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this paper is to augment a pre-trained text-to-image diffusion
model with the ability of open-vocabulary objects grounding, i.e.,
simultaneously generating images and segmentation masks for the corresponding
visual entities described in the text prompt. We make the following
contributions: (i) we insert a grounding module into the existing diffusion
model, that can be trained to align the visual and textual embedding space of
the diffusion model with only a small number of object categories; (ii) we
propose an automatic pipeline for constructing a dataset, that consists of
{image, segmentation mask, text prompt} triplets, to train the proposed
grounding module; (iii) we evaluate the performance of open-vocabulary
grounding on images generated from the text-to-image diffusion model and show
that the module can well segment the objects of categories beyond seen ones at
training time; (iv) we adopt the guided diffusion model to build a synthetic
semantic segmentation dataset, and show that training a standard segmentation
model on such dataset demonstrates competitive performance on zero-shot
segmentation(ZS3) benchmark, which opens up new opportunities for adopting the
powerful diffusion model for discriminative tasks.
- Abstract(参考訳): 本論文の目的は,テキストプロンプトに記述された対応する視覚的実体に対する画像とセグメンテーションマスクを同時に生成するオープン語彙オブジェクトグラウンドリング機能を備えた,事前訓練されたテキスト・ツー・イメージ拡散モデルを強化することである。
私たちは次のような貢献をします
(i)既存の拡散モデルに接地モジュールを挿入し、少量のオブジェクトカテゴリだけで拡散モデルの視覚的およびテキスト的埋め込み空間を整列するように訓練することができる。
i) 提案した接地モジュールをトレーニングするために,画像,セグメンテーションマスク,テキストプロンプトからなるデータセットを構築するための自動パイプラインを提案する。
3) テキスト・画像拡散モデルから生成した画像に基づいてオープン語彙グラウンドディングの性能を評価し, 学習時に見られたものを超えるカテゴリのオブジェクトを適切に分割できることを示せる。
(4) 合成セマンティックセマンティックセグメンテーションデータセットを構築するために誘導拡散モデルを採用し, それらのデータセット上で標準セグメンテーションモデルをトレーニングすると, ゼロショットセグメンテーション(ZS3)ベンチマーク上での競合性能が示され, 識別タスクに強力な拡散モデルを採用する新たな機会が開けることを示した。
関連論文リスト
- Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。
我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。
そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文 参考訳(メタデータ) (2024-10-03T10:33:49Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Diffusion Model is Secretly a Training-free Open Vocabulary Semantic
Segmenter [47.29967666846132]
生成テキストから画像への拡散モデルは非常に効率的なオープン語彙セマンティックセマンティックセマンティクスである。
我々はDiffSegmenterという新しいトレーニング不要のアプローチを導入し、入力テキストに意味的に忠実な現実的なオブジェクトを生成する。
3つのベンチマークデータセットの大規模な実験により、提案したDiffSegmenterは、オープン語彙セマンティックセマンティックセグメンテーションの印象的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-09-06T06:31:08Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - SceneGenie: Scene Graph Guided Diffusion Models for Image Synthesis [38.22195812238951]
拡散モデルにおけるサンプリングプロセスのための新しいガイダンス手法を提案する。
提案手法では,CLIP埋め込みのセマンティックな特徴によってモデルをガイドし,幾何学的制約を強制する。
本研究は,拡散モデルサンプリングプロセスにおいて,境界ボックスとセグメンテーションマップガイダンスを組み込むことの有効性を示した。
論文 参考訳(メタデータ) (2023-04-28T00:14:28Z) - Diffusion Models for Implicit Image Segmentation Ensembles [1.444701913511243]
拡散モデルに基づく新しいセマンティックセグメンテーション手法を提案する。
トレーニングとサンプリングの手法を改良することにより,拡散モデルが医用画像の病変分割を行うことができることを示す。
最先端セグメンテーションモデルと比較して,本手法は良好なセグメンテーション結果と有意義な不確実性マップが得られる。
論文 参考訳(メタデータ) (2021-12-06T16:28:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。