論文の概要: Diffusion Self-Guidance for Controllable Image Generation
- arxiv url: http://arxiv.org/abs/2306.00986v3
- Date: Sun, 11 Jun 2023 23:36:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 23:25:22.925984
- Title: Diffusion Self-Guidance for Controllable Image Generation
- Title(参考訳): 拡散自己誘導による制御可能な画像生成
- Authors: Dave Epstein, Allan Jabri, Ben Poole, Alexei A. Efros, Aleksander
Holynski
- Abstract要約: 自己誘導(Self-guidance)は、拡散モデルの内部表現を導くことによって、生成された画像に対するより深い制御を提供する。
課題の画像操作を行うために、簡単なプロパティセットをいかに構成できるかを示す。
また,実画像の編集に自己指導が有効であることを示す。
- 参考スコア(独自算出の注目度): 106.59989386924136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale generative models are capable of producing high-quality images
from detailed text descriptions. However, many aspects of an image are
difficult or impossible to convey through text. We introduce self-guidance, a
method that provides greater control over generated images by guiding the
internal representations of diffusion models. We demonstrate that properties
such as the shape, location, and appearance of objects can be extracted from
these representations and used to steer sampling. Self-guidance works similarly
to classifier guidance, but uses signals present in the pretrained model
itself, requiring no additional models or training. We show how a simple set of
properties can be composed to perform challenging image manipulations, such as
modifying the position or size of objects, merging the appearance of objects in
one image with the layout of another, composing objects from many images into
one, and more. We also show that self-guidance can be used to edit real images.
For results and an interactive demo, see our project page at
https://dave.ml/selfguidance/
- Abstract(参考訳): 大規模生成モデルは詳細なテキスト記述から高品質な画像を生成することができる。
しかし、画像の多くの側面はテキストで伝えるのが困難か不可能である。
本研究では,拡散モデルの内部表現を誘導することで生成画像の制御性を高める自己誘導法を提案する。
これらの表現から物体の形状、位置、外観などの特性を抽出し、サンプリングを制御できることを実証する。
自己誘導は分類器ガイダンスと同様に動作するが、事前訓練されたモデル自身に存在する信号を使用し、追加のモデルや訓練を必要としない。
オブジェクトの位置やサイズを変更したり、ある画像内のオブジェクトの外観を他の画像のレイアウトと融合したり、多数の画像からオブジェクトを1つにまとめたりといった、挑戦的な画像操作を行うために、単純なプロパティセットをどのように構成するかを示す。
また,実画像の編集に自己指導が利用できることを示す。
結果とインタラクティブなデモについては、https://dave.ml/selfguidance/のプロジェクトページを参照してください。
関連論文リスト
- LocRef-Diffusion:Tuning-Free Layout and Appearance-Guided Generation [17.169772329737913]
LocRef-Diffusionは、画像内の複数のインスタンスの外観と位置をカスタマイズできるチューニング不要のモデルである。
インスタンス配置の精度を高めるために,インスタンス生成位置を制御するレイアウトネットを導入する。
参照画像に対する外観忠実度を改善するために,インスタンスの外観特徴を抽出する外観ネットを用いる。
論文 参考訳(メタデータ) (2024-11-22T08:44:39Z) - PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions [66.92809850624118]
PixWizardは、画像生成、操作、翻訳を自由言語命令に基づいて行うために設計されたイメージ・ツー・イメージのビジュアルアシスタントである。
我々は、様々な視覚タスクを統一された画像テキスト・画像生成フレームワークに取り組み、Omni Pixel-to-Pixel Instruction-Tuningデータセットをキュレートする。
我々の実験は、PixWizardが様々な解像度の画像に対して印象的な生成能力と理解能力を示すだけでなく、目に見えないタスクや人間の指示で有望な一般化能力を示すことを示した。
論文 参考訳(メタデータ) (2024-09-23T17:59:46Z) - Outline-Guided Object Inpainting with Diffusion Models [11.391452115311798]
インスタンスセグメンテーションデータセットは、正確で堅牢なコンピュータビジョンモデルのトレーニングにおいて重要な役割を果たす。
この問題は、小さなアノテーション付きインスタンスセグメンテーションデータセットから始めて、拡張して、サイズが拡大されたアノテーション付きデータセットを取得することで緩和できることを示す。
オブジェクトアウトラインの拡散を導くことで,対象クラスでマスク領域を埋めるために,拡散ベースの塗装モデルを用いて新しい画像を生成する。
論文 参考訳(メタデータ) (2024-02-26T09:21:17Z) - PAIR-Diffusion: A Comprehensive Multimodal Object-Level Image Editor [135.17302411419834]
PAIR Diffusionは、画像内の各オブジェクトの構造と外観を制御する拡散モデルを可能にする汎用フレームワークである。
画像中の各オブジェクトのプロパティを制御できることが、包括的な編集機能に繋がることを示す。
我々のフレームワークは、参照画像ベースの外観編集、自由形形状編集、オブジェクトの追加、バリエーションなど、実際の画像に対する様々なオブジェクトレベルの編集操作を可能にする。
論文 参考訳(メタデータ) (2023-03-30T17:13:56Z) - SINE: SINgle Image Editing with Text-to-Image Diffusion Models [10.67527134198167]
本研究の目的は、単一画像編集の問題に対処することである。
分類器フリーガイダンスに基づく新しいモデルベースガイダンスを提案する。
スタイルの変更、コンテンツの追加、オブジェクト操作など、有望な編集機能を示す。
論文 参考訳(メタデータ) (2022-12-08T18:57:13Z) - Self-Guided Diffusion Models [53.825634944114285]
自己誘導拡散モデルのためのフレームワークを提案する。
本手法は,様々な画像粒度の誘導信号を提供する。
単ラベルおよび複数ラベルの画像データセットに対する実験により、自己ラベル付きガイダンスは誘導なしで拡散モデルより常に優れていることが示された。
論文 参考訳(メタデータ) (2022-10-12T17:57:58Z) - StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators [63.85888518950824]
生成モデルを新しいドメインに移行できるテキスト駆動方式を提案する。
自然言語のプロンプトと数分の訓練によって、我々の手法は複数のドメインにまたがってジェネレータを適応させることができることを示す。
論文 参考訳(メタデータ) (2021-08-02T14:46:46Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。