論文の概要: Null-text Guidance in Diffusion Models is Secretly a Cartoon-style
Creator
- arxiv url: http://arxiv.org/abs/2305.06710v4
- Date: Fri, 4 Aug 2023 03:07:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 15:51:32.366881
- Title: Null-text Guidance in Diffusion Models is Secretly a Cartoon-style
Creator
- Title(参考訳): 拡散モデルにおけるNull-text Guidanceは、秘かにカートゥーンスタイルのクリエーターである
- Authors: Jing Zhao, Heliang Zheng, Chaoyue Wang, Long Lan, Wanrong Huang,
Wenjing Yang
- Abstract要約: 拡散モデルにおけるヌルテキストガイダンスは、秘かに漫画スタイルのクリエーターである。
本稿では,Null-text ガイダンスとテキストガイダンスの予測に使用されるノイズの多い画像間の不一致を構築するために,ロールバック障害 (Back-D) とイメージ障害 (Image-D) の2つの外乱手法を提案する。
Back-Dは、$x_t$を$x_t+Delta t$に置き換えることで、nullテキストノイズ画像のノイズレベルを変更することで、漫画化を実現する
- 参考スコア(独自算出の注目度): 20.329795810937206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classifier-free guidance is an effective sampling technique in diffusion
models that has been widely adopted. The main idea is to extrapolate the model
in the direction of text guidance and away from null-text guidance. In this
paper, we demonstrate that null-text guidance in diffusion models is secretly a
cartoon-style creator, i.e., the generated images can be efficiently
transformed into cartoons by simply perturbing the null-text guidance.
Specifically, we proposed two disturbance methods, i.e., Rollback disturbance
(Back-D) and Image disturbance (Image-D), to construct misalignment between the
noisy images used for predicting null-text guidance and text guidance
(subsequently referred to as \textbf{null-text noisy image} and \textbf{text
noisy image} respectively) in the sampling process. Back-D achieves
cartoonization by altering the noise level of null-text noisy image via
replacing $x_t$ with $x_{t+\Delta t}$. Image-D, alternatively, produces
high-fidelity, diverse cartoons by defining $x_t$ as a clean input image, which
further improves the incorporation of finer image details. Through
comprehensive experiments, we delved into the principle of noise disturbing for
null-text and uncovered that the efficacy of disturbance depends on the
correlation between the null-text noisy image and the source image. Moreover,
our proposed techniques, which can generate cartoon images and cartoonize
specific ones, are training-free and easily integrated as a plug-and-play
component in any classifier-free guided diffusion model. Project page is
available at \url{https://nulltextforcartoon.github.io/}.
- Abstract(参考訳): 分類器フリーガイダンスは拡散モデルにおいて有効なサンプリング手法であり、広く採用されている。
主な考え方は、モデルをテキストガイダンスの方向に外挿し、nullテキストガイダンスから遠ざかることである。
本稿では,拡散モデルにおけるヌルテキストガイダンスが秘かにマンガスタイルの作者であること,すなわち,ヌルテキストガイダンスを単純に摂動させることで,生成した画像を漫画に効率的に変換できることを実証する。
具体的には,2つの外乱手法,すなわちロールバック障害(Back-D)とイメージ障害(Image-D)を提案し,サンプリングプロセスにおいて,ヌルテキストガイダンスとテキストガイダンスの予測に使用されるノイズ画像と,それぞれ \textbf{null-text noisy image} と \textbf{text noisy image} とを一致させる。
Back-Dは、$x_t$を$x_{t+\Delta t}$に置き換えることで、null-textのノイズレベルを変更することで、漫画化を実現する。
Image-Dは、クリーンな入力画像として$x_t$を定義することにより、高忠実で多様な漫画を生成する。
包括的実験により, ノイズ乱れの原理を考察し, 乱れの有効性は, 雑音画像と音源画像との相関に依存することを明らかにした。
さらに,提案手法は,漫画画像を生成し,特定のものを漫画化することができるため,任意の分類子フリー誘導拡散モデルにおいて,プラグイン・アンド・プレイ・コンポーネントとして容易に統合できる。
プロジェクトページは \url{https://nulltextforcartoon.github.io/} で利用可能である。
関連論文リスト
- ImPoster: Text and Frequency Guidance for Subject Driven Action Personalization using Diffusion Models [55.43801602995778]
提案するImPosterは,「運転」動作を行う「ソース」対象のターゲット画像を生成する新しいアルゴリズムである。
私たちのアプローチは完全に教師なしで、キーポイントやポーズといった追加のアノテーションへのアクセスは不要です。
論文 参考訳(メタデータ) (2024-09-24T01:25:19Z) - DEADiff: An Efficient Stylization Diffusion Model with Disentangled
Representations [64.43387739794531]
現在のエンコーダベースのアプローチは、スタイルの転送中にテキスト・ツー・イメージモデルのテキスト制御性を著しく損なう。
この問題に対処するために、以下の2つの戦略を用いてDEADiffを紹介します。
DeAiffは、テキスト・ツー・イメージモデルに固有のテキスト制御性と、参照画像とスタイルの類似性との間の最適な視覚的スタイリング結果と最適なバランスを得る。
論文 参考訳(メタデータ) (2024-03-11T17:35:23Z) - UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [73.10116197883303]
本研究では, 生成拡散モデルにより生成された画像に対して, 迅速な埋め込みを予測できる課題について検討する。
本稿では,複数ラベルの語彙分類を目的とする共同学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - Null-text Inversion for Editing Real Images using Guided Diffusion
Models [44.27570654402436]
精度の高い逆変換手法を導入し、直感的なテキストベースの画像修正を容易にする。
我々のNull-textインバージョンは、公開されている安定拡散モデルに基づいて、様々な画像に対して広範囲に評価し、迅速な編集を行う。
論文 参考訳(メタデータ) (2022-11-17T18:58:14Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。