論文の概要: Stable Diffusion Reference Only: Image Prompt and Blueprint Jointly
Guided Multi-Condition Diffusion Model for Secondary Painting
- arxiv url: http://arxiv.org/abs/2311.02343v1
- Date: Sat, 4 Nov 2023 07:53:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-11-07 18:09:19.455459
- Title: Stable Diffusion Reference Only: Image Prompt and Blueprint Jointly
Guided Multi-Condition Diffusion Model for Secondary Painting
- Title(参考訳): 安定拡散参照のみ:イメージプロンプトとブループリントによる2次塗装用多成分拡散モデル
- Authors: Hao Ai, Lu Sheng
- Abstract要約: 本稿では,2種類の条件付き画像のみを正確な制御生成に用いるイメージ・ツー・イメージ・セルフ教師付きモデルである,安定拡散参照(Stable Diffusion Reference)を提案する。
第1の条件付き画像は、画像プロンプトとして機能し、生成に必要な概念情報と色情報を提供する。
第2のタイプは青写真であり、生成された画像の視覚構造を制御する。
- 参考スコア(独自算出の注目度): 23.202786877523728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stable Diffusion and ControlNet have achieved excellent results in the field
of image generation and synthesis. However, due to the granularity and method
of its control, the efficiency improvement is limited for professional artistic
creations such as comics and animation production whose main work is secondary
painting. In the current workflow, fixing characters and image styles often
need lengthy text prompts, and even requires further training through
TextualInversion, DreamBooth or other methods, which is very complicated and
expensive for painters. Therefore, we present a new method in this paper,
Stable Diffusion Reference Only, a images-to-image self-supervised model that
uses only two types of conditional images for precise control generation to
accelerate secondary painting. The first type of conditional image serves as an
image prompt, supplying the necessary conceptual and color information for
generation. The second type is blueprint image, which controls the visual
structure of the generated image. It is natively embedded into the original
UNet, eliminating the need for ControlNet. We released all the code for the
module and pipeline, and trained a controllable character line art coloring
model at https://github.com/aihao2000/stable-diffusion-reference-only, that
achieved state-of-the-art results in this field. This verifies the
effectiveness of the structure and greatly improves the production efficiency
of animations, comics, and fanworks.
- Abstract(参考訳): 安定拡散と制御ネットは画像生成と合成の分野で優れた成果を上げている。
しかし、その粒度と制御方法により、二次絵画を主な作品とする漫画やアニメーション制作などの専門的な芸術作品では、効率性の向上が限定されている。
現在のワークフローでは、文字や画像のスタイルを修正するには長いテキストプロンプトが必要であり、さらにテキストインバージョンやdreamboothなどの方法によるさらなるトレーニングが必要であり、これは画家にとって非常に複雑で高価である。
そこで,本論文では,2種類の条件付き画像のみを用いて,2次絵画の高速化を行う,画像から画像への自己教師付きモデルである,安定拡散参照(Stable Diffusion Reference Only)を提案する。
第1タイプの条件画像は、画像プロンプトとして機能し、生成に必要な概念および色情報を提供する。
第2のタイプはブループリントイメージであり、生成された画像の視覚構造を制御する。
元々のUNetにネイティブに組み込まれており、ControlNetの必要性を排除している。
モジュールとパイプラインのすべてのコードをリリースし、コントロール可能な文字行アートカラーリングモデルをhttps://github.com/aihao2000/stable-diffusion-reference-onlyでトレーニングしました。
これにより、この構造の有効性が検証され、アニメーション、漫画、ファンワークの生産効率が大幅に向上する。
関連論文リスト
- Free-Lunch Color-Texture Disentanglement for Stylized Image Generation [58.406368812760256]
本稿では,タイマライズされたT2I生成において,フリーランチなカラーテクスチャ・ディコンタングルを実現するための,最初のチューニング自由アプローチを提案する。
色とテクスチャの基準画像からCTE(Color-Texture Embeddings)を分離・抽出する技術を開発した。
生成した画像の色パレットが色基準と密接に一致していることを確認するため、白と彩色変換を適用する。
論文 参考訳(メタデータ) (2025-03-18T14:10:43Z) - Improving Text-guided Object Inpainting with Semantic Pre-inpainting [95.17396565347936]
我々は,典型的な単一ステージオブジェクトを2つのカスケードプロセス – セマンティックプリペイントと高磁場オブジェクト生成 – に分解する。
これを実現するために,トランスフォーマーをベースとしたセマンティックインパインとオブジェクトインパインティング拡散モデルをカスケードし,新しいCAscaded Transformer-Diffusionフレームワークを実現する。
論文 参考訳(メタデータ) (2024-09-12T17:55:37Z) - Zero-Painter: Training-Free Layout Control for Text-to-Image Synthesis [63.757624792753205]
レイアウト条件のテキスト-画像合成のためのZero-Painterを提案する。
本手法では,オブジェクトマスクと個々の記述とグローバルテキストプロンプトを組み合わせることで,忠実度の高い画像を生成する。
論文 参考訳(メタデータ) (2024-06-06T13:02:00Z) - Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion
Models [68.47333676663312]
テキスト・ツー・イメージ・モデルにおける画像要素のアンタングル化に有効な分類器フリーガイダンスの簡単な修正法を示す。
提案手法のキーとなる考え方は、最小限のトークンで異なる2つのプロンプトを持つ意図された要因を特徴づけることである。
我々は,(1)オブジェクトクラスで訓練されたドメイン固有拡散モデル,(2)テキスト・画像生成のための連続的なリグライクな制御,(3)ゼロショット画像エディタの性能向上の3つのシナリオにおいて,その利点を説明する。
論文 参考訳(メタデータ) (2024-02-21T03:01:17Z) - Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion
Models [94.25020178662392]
テキスト・トゥ・イメージ(T2I)の研究はこの1年で爆発的に成長した。
テキストプロンプトエンジニアリングと、カスタマイズされた結果のための高品質なテキストプロンプトの検索は、科学よりも芸術的だ。
本稿では,事前学習したT2I拡散モデルから"Text"を抽出し,ユーザの負担を軽減した。
論文 参考訳(メタデータ) (2023-05-25T16:30:07Z) - BLIP-Diffusion: Pre-trained Subject Representation for Controllable
Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。
他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文 参考訳(メタデータ) (2023-05-24T04:51:04Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - SmartBrush: Text and Shape Guided Object Inpainting with Diffusion Model [27.91089554671927]
ジェネリック・イメージ・インペイントは、周辺情報を借りて、腐敗したイメージを完成させることを目的としている。
対照的に、マルチモーダル・インパインティングは、インパインされたコンテンツに対してより柔軟で有用なコントロールを提供する。
テキストと形状誘導の両方を用いて、オブジェクトで欠落した領域を完了するための拡散モデルSmartBrushを提案する。
論文 参考訳(メタデータ) (2022-12-09T18:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。