論文の概要: Peekaboo: Text to Image Diffusion Models are Zero-Shot Segmentors
- arxiv url: http://arxiv.org/abs/2211.13224v2
- Date: Wed, 21 Jun 2023 12:35:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 18:04:00.148400
- Title: Peekaboo: Text to Image Diffusion Models are Zero-Shot Segmentors
- Title(参考訳): Peekaboo: テキストから画像への拡散モデルはゼロショットセグメンタ
- Authors: Ryan Burgert, Kanchana Ranasinghe, Xiang Li, Michael S. Ryoo
- Abstract要約: Peekabooは、ゼロショット、オープンボキャブラリ、教師なしセマンティックグラウンド技術である。
基礎となる拡散モデルがRGB画像でのみ訓練されているにもかかわらず、Peekabooが透過性のある画像を生成するためにどのように使用できるかを示す。
- 参考スコア(独自算出の注目度): 40.959642112729234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, text-to-image diffusion models have shown remarkable capabilities
in creating realistic images from natural language prompts. However, few works
have explored using these models for semantic localization or grounding. In
this work, we explore how an off-the-shelf text-to-image diffusion model,
trained without exposure to localization information, can ground various
semantic phrases without segmentation-specific re-training. We introduce an
inference time optimization process capable of generating segmentation masks
conditioned on natural language prompts. Our proposal, Peekaboo, is a
first-of-its-kind zero-shot, open-vocabulary, unsupervised semantic grounding
technique leveraging diffusion models without any training. We evaluate
Peekaboo on the Pascal VOC dataset for unsupervised semantic segmentation and
the RefCOCO dataset for referring segmentation, showing results competitive
with promising results. We also demonstrate how Peekaboo can be used to
generate images with transparency, even though the underlying diffusion model
was only trained on RGB images - which to our knowledge we are the first to
attempt. Please see our project page, including our code:
https://ryanndagreat.github.io/peekaboo
- Abstract(参考訳): 近年,テキストと画像の拡散モデルにより,自然言語のプロンプトからリアルな画像を作成することができる。
しかし、これらのモデルを意味的ローカライゼーションや接地に利用する研究は少ない。
本研究では,セグメンテーション固有の再学習を行わずに,テキストから画像への拡散モデルを学習し,セグメンテーション情報に露出することなく様々な意味句を接地する方法について検討する。
本稿では,自然言語プロンプトに基づくセグメンテーションマスクを生成できる推定時間最適化手法を提案する。
当社の提案であるpeekabooは,ゼロショットでオープンボキャブラリーで教師なしなセマンティクスグラウンドイング手法で,トレーニングなしで拡散モデルを活用する。
我々はPeekabooを教師なしセマンティックセグメンテーションのためのPascal VOCデータセットとセマンティックセグメンテーションを参照するためのRefCOCOデータセットで評価し、有望な結果と競合する結果を示した。
我々はまた、基礎となる拡散モデルがRGBイメージでのみトレーニングされているにもかかわらず、Peekabooが透過性のある画像を生成するためにどのように使用できるかを実証した。
私たちのコードを含むプロジェクトページをご覧ください。 https://ryanndagreat.github.io/peekaboo
関連論文リスト
- FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [73.10116197883303]
本研究では, 生成拡散モデルにより生成された画像に対して, 迅速な埋め込みを予測できる課題について検討する。
本稿では,複数ラベルの語彙分類を目的とする共同学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - Text-to-Image Diffusion Models are Zero-Shot Classifiers [8.26990105697146]
ゼロショット分類器として評価する手法を提案し,テキスト・画像拡散モデルについて検討した。
本手法を安定拡散およびイメージnに適用し,モデル知識のきめ細かい面を探索する。
彼らは幅広いゼロショット画像分類データセットでCLIPと競合する。
論文 参考訳(メタデータ) (2023-03-27T14:15:17Z) - Freestyle Layout-to-Image Synthesis [42.64485133926378]
この研究では、モデルの自由なスタイルの能力、すなわち、与えられたレイアウト上に見知らぬセマンティクスをどの程度生成できるかを探索する。
これに触発されて、我々は、大規模事前訓練されたテキスト-画像拡散モデルを利用して、目に見えないセマンティクスを生成することを選んだ。
提案した拡散ネットワークは,テキスト入力を多用したリアルかつ自由なレイアウト・ツー・イメージ生成結果を生成する。
論文 参考訳(メタデータ) (2023-03-25T09:37:41Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - What the DAAM: Interpreting Stable Diffusion Using Cross Attention [39.97805685586423]
大規模拡散ニューラルネットワークは、テキスト・画像生成において重要なマイルストーンである。
説明可能性の欠如と解釈可能性の分析は、主にプロプライエタリでクローズドソースな性質のため、理解に乏しいままである。
本稿では,潜伏するサブネットワークにおけるクロスアテンションアクティベーションのアップスケーリングと集約に基づく新しい手法であるDAAMを提案する。
DAAMは,61.0のmIoUを達成し,キャプション生成画像に対して強く作用し,オープン語彙セグメンテーションにおける教師付きモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-10T17:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。