Fugu-MT 論文翻訳(概要): Guiding Text-to-Image Diffusion Model Towards Grounded Generation

論文の概要: Guiding Text-to-Image Diffusion Model Towards Grounded Generation

arxiv url: http://arxiv.org/abs/2301.05221v1
Date: Thu, 12 Jan 2023 18:59:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-13 14:46:55.051407
Title: Guiding Text-to-Image Diffusion Model Towards Grounded Generation
Title（参考訳）: グラウンドドジェネレーションに向けたテキスト・画像拡散モデルの誘導
Authors: Ziyi Li, Qinye Zhou, Xiaoyun Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie
Abstract要約: 本稿では,テキストプロンプトに記述された対応する視覚的エンティティに対する画像とセグメンテーションマスクを同時に生成するオープン語彙オブジェクトグラウンド機能を備えた,事前学習されたテキスト・ツー・イメージ拡散モデルを強化する。このようなデータセット上で標準セグメンテーションモデルをトレーニングすると、ゼロショットセグメンテーション(ZS3)ベンチマーク上での競争性能が示され、識別タスクに強力な拡散モデルを採用する新たな機会が開かれる。
参考スコア（独自算出の注目度）: 47.36233857830832
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The goal of this paper is to augment a pre-trained text-to-image diffusion model with the ability of open-vocabulary objects grounding, i.e., simultaneously generating images and segmentation masks for the corresponding visual entities described in the text prompt. We make the following contributions: (i) we insert a grounding module into the existing diffusion model, that can be trained to align the visual and textual embedding space of the diffusion model with only a small number of object categories; (ii) we propose an automatic pipeline for constructing a dataset, that consists of {image, segmentation mask, text prompt} triplets, to train the proposed grounding module; (iii) we evaluate the performance of open-vocabulary grounding on images generated from the text-to-image diffusion model and show that the module can well segment the objects of categories beyond seen ones at training time; (iv) we adopt the guided diffusion model to build a synthetic semantic segmentation dataset, and show that training a standard segmentation model on such dataset demonstrates competitive performance on zero-shot segmentation(ZS3) benchmark, which opens up new opportunities for adopting the powerful diffusion model for discriminative tasks.
Abstract（参考訳）: 本論文の目的は,テキストプロンプトに記述された対応する視覚的実体に対する画像とセグメンテーションマスクを同時に生成するオープン語彙オブジェクトグラウンドリング機能を備えた,事前訓練されたテキスト・ツー・イメージ拡散モデルを強化することである。私たちは次のような貢献をします (i)既存の拡散モデルに接地モジュールを挿入し、少量のオブジェクトカテゴリだけで拡散モデルの視覚的およびテキスト的埋め込み空間を整列するように訓練することができる。 i) 提案した接地モジュールをトレーニングするために,画像,セグメンテーションマスク,テキストプロンプトからなるデータセットを構築するための自動パイプラインを提案する。 3) テキスト・画像拡散モデルから生成した画像に基づいてオープン語彙グラウンドディングの性能を評価し, 学習時に見られたものを超えるカテゴリのオブジェクトを適切に分割できることを示せる。 (4) 合成セマンティックセマンティックセグメンテーションデータセットを構築するために誘導拡散モデルを採用し, それらのデータセット上で標準セグメンテーションモデルをトレーニングすると, ゼロショットセグメンテーション(ZS3)ベンチマーク上での競合性能が示され, 識別タスクに強力な拡散モデルを採用する新たな機会が開けることを示した。

関連論文リスト

Conditional Latent Diffusion Models for Zero-Shot Instance Segmentation [16.225638630932675]
OC-DiTは、オブジェクト中心の予測のために設計された拡散モデルのクラスである。本稿では,インスタンスマスクを生成する条件付き潜在拡散フレームワークを提案する。我々はこれらのモデルを、新しく作成された大規模合成データセットでトレーニングする。
論文参考訳（メタデータ） (2025-08-06T06:38:46Z)
Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文参考訳（メタデータ） (2024-10-26T12:00:33Z)
Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文参考訳（メタデータ） (2024-10-03T10:33:49Z)
FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文参考訳（メタデータ） (2024-03-29T10:38:25Z)
Diffusion Model is Secretly a Training-free Open Vocabulary Semantic Segmenter [47.29967666846132]
生成テキストから画像への拡散モデルは非常に効率的なオープン語彙セマンティックセマンティックセマンティクスである。我々はDiffSegmenterという新しいトレーニング不要のアプローチを導入し、入力テキストに意味的に忠実な現実的なオブジェクトを生成する。 3つのベンチマークデータセットの大規模な実験により、提案したDiffSegmenterは、オープン語彙セマンティックセマンティックセグメンテーションの印象的な結果が得られることが示された。
論文参考訳（メタデータ） (2023-09-06T06:31:08Z)
Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文参考訳（メタデータ） (2023-06-15T17:51:28Z)
SceneGenie: Scene Graph Guided Diffusion Models for Image Synthesis [38.22195812238951]
拡散モデルにおけるサンプリングプロセスのための新しいガイダンス手法を提案する。提案手法では,CLIP埋め込みのセマンティックな特徴によってモデルをガイドし,幾何学的制約を強制する。本研究は,拡散モデルサンプリングプロセスにおいて,境界ボックスとセグメンテーションマップガイダンスを組み込むことの有効性を示した。
論文参考訳（メタデータ） (2023-04-28T00:14:28Z)
Diffusion Models for Implicit Image Segmentation Ensembles [1.444701913511243]
拡散モデルに基づく新しいセマンティックセグメンテーション手法を提案する。トレーニングとサンプリングの手法を改良することにより,拡散モデルが医用画像の病変分割を行うことができることを示す。最先端セグメンテーションモデルと比較して,本手法は良好なセグメンテーション結果と有意義な不確実性マップが得られる。
論文参考訳（メタデータ） (2021-12-06T16:28:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。