論文の概要: Stable Diffusion Reference Only: Image Prompt and Blueprint Jointly
Guided Multi-Condition Diffusion Model for Secondary Painting
- arxiv url: http://arxiv.org/abs/2311.02343v1
- Date: Sat, 4 Nov 2023 07:53:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 18:09:19.455459
- Title: Stable Diffusion Reference Only: Image Prompt and Blueprint Jointly
Guided Multi-Condition Diffusion Model for Secondary Painting
- Title(参考訳): 安定拡散参照のみ:イメージプロンプトとブループリントによる2次塗装用多成分拡散モデル
- Authors: Hao Ai, Lu Sheng
- Abstract要約: 本稿では,2種類の条件付き画像のみを正確な制御生成に用いるイメージ・ツー・イメージ・セルフ教師付きモデルである,安定拡散参照(Stable Diffusion Reference)を提案する。
第1の条件付き画像は、画像プロンプトとして機能し、生成に必要な概念情報と色情報を提供する。
第2のタイプは青写真であり、生成された画像の視覚構造を制御する。
- 参考スコア(独自算出の注目度): 23.202786877523728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stable Diffusion and ControlNet have achieved excellent results in the field
of image generation and synthesis. However, due to the granularity and method
of its control, the efficiency improvement is limited for professional artistic
creations such as comics and animation production whose main work is secondary
painting. In the current workflow, fixing characters and image styles often
need lengthy text prompts, and even requires further training through
TextualInversion, DreamBooth or other methods, which is very complicated and
expensive for painters. Therefore, we present a new method in this paper,
Stable Diffusion Reference Only, a images-to-image self-supervised model that
uses only two types of conditional images for precise control generation to
accelerate secondary painting. The first type of conditional image serves as an
image prompt, supplying the necessary conceptual and color information for
generation. The second type is blueprint image, which controls the visual
structure of the generated image. It is natively embedded into the original
UNet, eliminating the need for ControlNet. We released all the code for the
module and pipeline, and trained a controllable character line art coloring
model at https://github.com/aihao2000/stable-diffusion-reference-only, that
achieved state-of-the-art results in this field. This verifies the
effectiveness of the structure and greatly improves the production efficiency
of animations, comics, and fanworks.
- Abstract(参考訳): 安定拡散と制御ネットは画像生成と合成の分野で優れた成果を上げている。
しかし、その粒度と制御方法により、二次絵画を主な作品とする漫画やアニメーション制作などの専門的な芸術作品では、効率性の向上が限定されている。
現在のワークフローでは、文字や画像のスタイルを修正するには長いテキストプロンプトが必要であり、さらにテキストインバージョンやdreamboothなどの方法によるさらなるトレーニングが必要であり、これは画家にとって非常に複雑で高価である。
そこで,本論文では,2種類の条件付き画像のみを用いて,2次絵画の高速化を行う,画像から画像への自己教師付きモデルである,安定拡散参照(Stable Diffusion Reference Only)を提案する。
第1タイプの条件画像は、画像プロンプトとして機能し、生成に必要な概念および色情報を提供する。
第2のタイプはブループリントイメージであり、生成された画像の視覚構造を制御する。
元々のUNetにネイティブに組み込まれており、ControlNetの必要性を排除している。
モジュールとパイプラインのすべてのコードをリリースし、コントロール可能な文字行アートカラーリングモデルをhttps://github.com/aihao2000/stable-diffusion-reference-onlyでトレーニングしました。
これにより、この構造の有効性が検証され、アニメーション、漫画、ファンワークの生産効率が大幅に向上する。
関連論文リスト
- Improving Text-guided Object Inpainting with Semantic Pre-inpainting [95.17396565347936]
我々は,典型的な単一ステージオブジェクトを2つのカスケードプロセス – セマンティックプリペイントと高磁場オブジェクト生成 – に分解する。
これを実現するために,トランスフォーマーをベースとしたセマンティックインパインとオブジェクトインパインティング拡散モデルをカスケードし,新しいCAscaded Transformer-Diffusionフレームワークを実現する。
論文 参考訳(メタデータ) (2024-09-12T17:55:37Z) - Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion
Models [68.47333676663312]
テキスト・ツー・イメージ・モデルにおける画像要素のアンタングル化に有効な分類器フリーガイダンスの簡単な修正法を示す。
提案手法のキーとなる考え方は、最小限のトークンで異なる2つのプロンプトを持つ意図された要因を特徴づけることである。
我々は,(1)オブジェクトクラスで訓練されたドメイン固有拡散モデル,(2)テキスト・画像生成のための連続的なリグライクな制御,(3)ゼロショット画像エディタの性能向上の3つのシナリオにおいて,その利点を説明する。
論文 参考訳(メタデータ) (2024-02-21T03:01:17Z) - Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion
Models [94.25020178662392]
テキスト・トゥ・イメージ(T2I)の研究はこの1年で爆発的に成長した。
テキストプロンプトエンジニアリングと、カスタマイズされた結果のための高品質なテキストプロンプトの検索は、科学よりも芸術的だ。
本稿では,事前学習したT2I拡散モデルから"Text"を抽出し,ユーザの負担を軽減した。
論文 参考訳(メタデータ) (2023-05-25T16:30:07Z) - BLIP-Diffusion: Pre-trained Subject Representation for Controllable
Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。
他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文 参考訳(メタデータ) (2023-05-24T04:51:04Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [115.49488548588305]
画像の編集のために、事前訓練された拡散モデルの驚くべき能力を活用することに重点が置かれている。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - SmartBrush: Text and Shape Guided Object Inpainting with Diffusion Model [27.91089554671927]
ジェネリック・イメージ・インペイントは、周辺情報を借りて、腐敗したイメージを完成させることを目的としている。
対照的に、マルチモーダル・インパインティングは、インパインされたコンテンツに対してより柔軟で有用なコントロールを提供する。
テキストと形状誘導の両方を用いて、オブジェクトで欠落した領域を完了するための拡散モデルSmartBrushを提案する。
論文 参考訳(メタデータ) (2022-12-09T18:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。