論文の概要: Sketch-Guided Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2211.13752v1
- Date: Thu, 24 Nov 2022 18:45:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 15:50:46.544076
- Title: Sketch-Guided Text-to-Image Diffusion Models
- Title(参考訳): スケッチガイドによるテキスト-画像拡散モデル
- Authors: Andrey Voynov, Kfir Aberman, Daniel Cohen-Or
- Abstract要約: 本稿では,事前訓練されたテキスト-画像拡散モデルを示す普遍的なアプローチを提案する。
本手法では,タスク専用のモデルや専用エンコーダをトレーニングする必要はない。
我々は、スケッチ・ツー・イメージの翻訳タスクに特に焦点をあて、画像を生成する堅牢で表現力のある方法を明らかにする。
- 参考スコア(独自算出の注目度): 57.12095262189362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-Image models have introduced a remarkable leap in the evolution of
machine learning, demonstrating high-quality synthesis of images from a given
text-prompt. However, these powerful pretrained models still lack control
handles that can guide spatial properties of the synthesized images. In this
work, we introduce a universal approach to guide a pretrained text-to-image
diffusion model, with a spatial map from another domain (e.g., sketch) during
inference time. Unlike previous works, our method does not require to train a
dedicated model or a specialized encoder for the task. Our key idea is to train
a Latent Guidance Predictor (LGP) - a small, per-pixel, Multi-Layer Perceptron
(MLP) that maps latent features of noisy images to spatial maps, where the deep
features are extracted from the core Denoising Diffusion Probabilistic Model
(DDPM) network. The LGP is trained only on a few thousand images and
constitutes a differential guiding map predictor, over which the loss is
computed and propagated back to push the intermediate images to agree with the
spatial map. The per-pixel training offers flexibility and locality which
allows the technique to perform well on out-of-domain sketches, including
free-hand style drawings. We take a particular focus on the sketch-to-image
translation task, revealing a robust and expressive way to generate images that
follow the guidance of a sketch of arbitrary style or domain. Project page:
sketch-guided-diffusion.github.io
- Abstract(参考訳): テキスト間画像モデルは、与えられたテキストプロンプトからの画像の高品質な合成を実証し、機械学習の進化に驚くべき飛躍をもたらした。
しかし、これらの強力な事前訓練されたモデルには、合成画像の空間特性を導く制御ハンドルがない。
本研究では,事前訓練されたテキスト・画像拡散モデルに,推論時間中に他の領域(スケッチなど)から空間マップを導出する普遍的アプローチを導入する。
従来の作業とは異なり、このメソッドはタスク専用のモデルや専用エンコーダをトレーニングする必要はない。
我々のキーとなるアイデアは、ノイズの多い画像の潜伏した特徴を空間地図にマッピングするLGP(Latent Guidance Predictor) - 小型でピクセルごとのマルチ層パーセプトロン(Multi-Layer Perceptron) - をトレーニングすることであり、そこではDenoising Diffusion Probabilistic Model(DDPM)ネットワークから深い特徴を抽出する。
LGPは数千の画像のみに基づいて訓練され、空間地図に一致するように中間画像を押し戻すために、損失を計算して伝播する微分ガイドマップ予測器を構成する。
ピクセルごとのトレーニングは柔軟性と局所性を提供し、フリーハンドスタイルの描画を含むドメイン外のスケッチでうまく機能する。
我々はスケッチ・ツー・イメージ翻訳タスクに特に焦点をあて、任意のスタイルやドメインのスケッチのガイダンスに従う画像を生成する堅牢で表現力豊かな方法を明らかにする。
プロジェクトページ: sketch-guided-diffusion.github.io
関連論文リスト
- FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - Few-Shot Learning with Visual Distribution Calibration and Cross-Modal
Distribution Alignment [47.53887941065894]
事前訓練された視覚言語モデルは、数ショット学習に関する多くの研究にインスピレーションを与えている。
少数の訓練画像だけで、視覚的特徴分布は画像のクラス非関連情報によって容易に妨げられる。
本稿では,画像の空間的注意マップを生成するSelective Attackモジュールを提案する。
論文 参考訳(メタデータ) (2023-05-19T05:45:17Z) - Freestyle Layout-to-Image Synthesis [42.64485133926378]
この研究では、モデルの自由なスタイルの能力、すなわち、与えられたレイアウト上に見知らぬセマンティクスをどの程度生成できるかを探索する。
これに触発されて、我々は、大規模事前訓練されたテキスト-画像拡散モデルを利用して、目に見えないセマンティクスを生成することを選んだ。
提案した拡散ネットワークは,テキスト入力を多用したリアルかつ自由なレイアウト・ツー・イメージ生成結果を生成する。
論文 参考訳(メタデータ) (2023-03-25T09:37:41Z) - HandNeRF: Neural Radiance Fields for Animatable Interacting Hands [122.32855646927013]
神経放射場(NeRF)を用いて手の動きを正確に再現する新しい枠組みを提案する。
我々は,提案するHandNeRFのメリットを検証するための広範囲な実験を行い,その成果を報告する。
論文 参考訳(メタデータ) (2023-03-24T06:19:19Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。