論文の概要: Peekaboo: Text to Image Diffusion Models are Zero-Shot Segmentors
- arxiv url: http://arxiv.org/abs/2211.13224v1
- Date: Wed, 23 Nov 2022 18:59:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 13:37:09.702123
- Title: Peekaboo: Text to Image Diffusion Models are Zero-Shot Segmentors
- Title(参考訳): Peekaboo: テキストから画像への拡散モデルはゼロショットセグメンタ
- Authors: Ryan Burgert, Kanchana Ranasinghe, Xiang Li, Michael S. Ryoo
- Abstract要約: 拡散型生成モデルを利用したゼロショット,オープンボキャブラリ,教師なし(局所化情報なし)セマンティックグラウンド技術を提案する。
私たちのコードは公開されます。
- 参考スコア(独自算出の注目度): 40.959642112729234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent diffusion-based generative models combined with vision-language models
are capable of creating realistic images from natural language prompts. While
these models are trained on large internet-scale datasets, such pre-trained
models are not directly introduced to any semantic localization or grounding.
Most current approaches for localization or grounding rely on human-annotated
localization information in the form of bounding boxes or segmentation masks.
The exceptions are a few unsupervised methods that utilize architectures or
loss functions geared towards localization, but they need to be trained
separately. In this work, we explore how off-the-shelf diffusion models,
trained with no exposure to such localization information, are capable of
grounding various semantic phrases with no segmentation-specific re-training.
An inference time optimization process is introduced, that is capable of
generating segmentation masks conditioned on natural language. We evaluate our
proposal Peekaboo for unsupervised semantic segmentation on the Pascal VOC
dataset. In addition, we evaluate for referring segmentation on the RefCOCO
dataset. In summary, we present a first zero-shot, open-vocabulary,
unsupervised (no localization information), semantic grounding technique
leveraging diffusion-based generative models with no re-training. Our code will
be released publicly.
- Abstract(参考訳): 最近の拡散に基づく生成モデルと視覚言語モデルの組み合わせは、自然言語プロンプトから現実的な画像を生成することができる。
これらのモデルは大規模なインターネットスケールのデータセットでトレーニングされているが、そのような事前訓練されたモデルは、セマンティックなローカライゼーションやグラウンドリングに直接導入されない。
ローカライゼーションやグラウンド化の現在のアプローチは、バウンディングボックスやセグメンテーションマスクという形で、人間のアノテーションによるローカライズ情報に依存している。
例外は、ローカライズに特化したアーキテクチャや損失関数を利用する教師なしの方法がいくつかあるが、これらは個別にトレーニングする必要がある。
本研究では,そのような局所化情報の露出を伴わずに学習した市販の拡散モデルが,セグメンテーション固有の再学習を伴わずに様々な意味句を接地できる方法について検討する。
自然言語で条件付きセグメンテーションマスクを生成することができる推論時間最適化プロセスを導入する。
我々は,pascal vocデータセット上の教師なしセマンティクスセグメンテーションのためのpeekabooを提案する。
さらに,RefCOCOデータセットにおけるセグメンテーションの参照評価を行った。
本稿では,ゼロショット,オープンボキャブラリー,非教師なし(ローカライズ情報なし),拡散に基づく生成モデルを利用した意味的接地手法を提案する。
私たちのコードは公開されます。
関連論文リスト
- FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [73.10116197883303]
本研究では, 生成拡散モデルにより生成された画像に対して, 迅速な埋め込みを予測できる課題について検討する。
本稿では,複数ラベルの語彙分類を目的とする共同学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - Text-to-Image Diffusion Models are Zero-Shot Classifiers [8.26990105697146]
ゼロショット分類器として評価する手法を提案し,テキスト・画像拡散モデルについて検討した。
本手法を安定拡散およびイメージnに適用し,モデル知識のきめ細かい面を探索する。
彼らは幅広いゼロショット画像分類データセットでCLIPと競合する。
論文 参考訳(メタデータ) (2023-03-27T14:15:17Z) - Freestyle Layout-to-Image Synthesis [42.64485133926378]
この研究では、モデルの自由なスタイルの能力、すなわち、与えられたレイアウト上に見知らぬセマンティクスをどの程度生成できるかを探索する。
これに触発されて、我々は、大規模事前訓練されたテキスト-画像拡散モデルを利用して、目に見えないセマンティクスを生成することを選んだ。
提案した拡散ネットワークは,テキスト入力を多用したリアルかつ自由なレイアウト・ツー・イメージ生成結果を生成する。
論文 参考訳(メタデータ) (2023-03-25T09:37:41Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - What the DAAM: Interpreting Stable Diffusion Using Cross Attention [39.97805685586423]
大規模拡散ニューラルネットワークは、テキスト・画像生成において重要なマイルストーンである。
説明可能性の欠如と解釈可能性の分析は、主にプロプライエタリでクローズドソースな性質のため、理解に乏しいままである。
本稿では,潜伏するサブネットワークにおけるクロスアテンションアクティベーションのアップスケーリングと集約に基づく新しい手法であるDAAMを提案する。
DAAMは,61.0のmIoUを達成し,キャプション生成画像に対して強く作用し,オープン語彙セグメンテーションにおける教師付きモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-10T17:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。