Fugu-MT 論文翻訳(概要): Stable Diffusion Reference Only: Image Prompt and Blueprint Jointly Guided Multi-Condition Diffusion Model for Secondary Painting

論文の概要: Stable Diffusion Reference Only: Image Prompt and Blueprint Jointly Guided Multi-Condition Diffusion Model for Secondary Painting

arxiv url: http://arxiv.org/abs/2311.02343v1
Date: Sat, 4 Nov 2023 07:53:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-07 18:09:19.455459
Title: Stable Diffusion Reference Only: Image Prompt and Blueprint Jointly Guided Multi-Condition Diffusion Model for Secondary Painting
Title（参考訳）: 安定拡散参照のみ:イメージプロンプトとブループリントによる2次塗装用多成分拡散モデル
Authors: Hao Ai, Lu Sheng
Abstract要約: 本稿では,2種類の条件付き画像のみを正確な制御生成に用いるイメージ・ツー・イメージ・セルフ教師付きモデルである,安定拡散参照(Stable Diffusion Reference)を提案する。第1の条件付き画像は、画像プロンプトとして機能し、生成に必要な概念情報と色情報を提供する。第2のタイプは青写真であり、生成された画像の視覚構造を制御する。
参考スコア（独自算出の注目度）: 23.202786877523728
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Stable Diffusion and ControlNet have achieved excellent results in the field of image generation and synthesis. However, due to the granularity and method of its control, the efficiency improvement is limited for professional artistic creations such as comics and animation production whose main work is secondary painting. In the current workflow, fixing characters and image styles often need lengthy text prompts, and even requires further training through TextualInversion, DreamBooth or other methods, which is very complicated and expensive for painters. Therefore, we present a new method in this paper, Stable Diffusion Reference Only, a images-to-image self-supervised model that uses only two types of conditional images for precise control generation to accelerate secondary painting. The first type of conditional image serves as an image prompt, supplying the necessary conceptual and color information for generation. The second type is blueprint image, which controls the visual structure of the generated image. It is natively embedded into the original UNet, eliminating the need for ControlNet. We released all the code for the module and pipeline, and trained a controllable character line art coloring model at https://github.com/aihao2000/stable-diffusion-reference-only, that achieved state-of-the-art results in this field. This verifies the effectiveness of the structure and greatly improves the production efficiency of animations, comics, and fanworks.
Abstract（参考訳）: 安定拡散と制御ネットは画像生成と合成の分野で優れた成果を上げている。しかし、その粒度と制御方法により、二次絵画を主な作品とする漫画やアニメーション制作などの専門的な芸術作品では、効率性の向上が限定されている。現在のワークフローでは、文字や画像のスタイルを修正するには長いテキストプロンプトが必要であり、さらにテキストインバージョンやdreamboothなどの方法によるさらなるトレーニングが必要であり、これは画家にとって非常に複雑で高価である。そこで,本論文では,2種類の条件付き画像のみを用いて,2次絵画の高速化を行う,画像から画像への自己教師付きモデルである,安定拡散参照(Stable Diffusion Reference Only)を提案する。第1タイプの条件画像は、画像プロンプトとして機能し、生成に必要な概念および色情報を提供する。第2のタイプはブループリントイメージであり、生成された画像の視覚構造を制御する。元々のUNetにネイティブに組み込まれており、ControlNetの必要性を排除している。モジュールとパイプラインのすべてのコードをリリースし、コントロール可能な文字行アートカラーリングモデルをhttps://github.com/aihao2000/stable-diffusion-reference-onlyでトレーニングしました。これにより、この構造の有効性が検証され、アニメーション、漫画、ファンワークの生産効率が大幅に向上する。

関連論文リスト

Free-Lunch Color-Texture Disentanglement for Stylized Image Generation [58.406368812760256]
本稿では,タイマライズされたT2I生成において,フリーランチなカラーテクスチャ・ディコンタングルを実現するための,最初のチューニング自由アプローチを提案する。色とテクスチャの基準画像からCTE(Color-Texture Embeddings)を分離・抽出する技術を開発した。生成した画像の色パレットが色基準と密接に一致していることを確認するため、白と彩色変換を適用する。
論文参考訳（メタデータ） (2025-03-18T14:10:43Z)
Improving Text-guided Object Inpainting with Semantic Pre-inpainting [95.17396565347936]
我々は,典型的な単一ステージオブジェクトを2つのカスケードプロセス – セマンティックプリペイントと高磁場オブジェクト生成 – に分解する。これを実現するために,トランスフォーマーをベースとしたセマンティックインパインとオブジェクトインパインティング拡散モデルをカスケードし,新しいCAscaded Transformer-Diffusionフレームワークを実現する。
論文参考訳（メタデータ） (2024-09-12T17:55:37Z)
Zero-Painter: Training-Free Layout Control for Text-to-Image Synthesis [63.757624792753205]
レイアウト条件のテキスト-画像合成のためのZero-Painterを提案する。本手法では,オブジェクトマスクと個々の記述とグローバルテキストプロンプトを組み合わせることで,忠実度の高い画像を生成する。
論文参考訳（メタデータ） (2024-06-06T13:02:00Z)
Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion Models [68.47333676663312]
テキスト・ツー・イメージ・モデルにおける画像要素のアンタングル化に有効な分類器フリーガイダンスの簡単な修正法を示す。提案手法のキーとなる考え方は、最小限のトークンで異なる2つのプロンプトを持つ意図された要因を特徴づけることである。我々は,(1)オブジェクトクラスで訓練されたドメイン固有拡散モデル,(2)テキスト・画像生成のための連続的なリグライクな制御,(3)ゼロショット画像エディタの性能向上の3つのシナリオにおいて,その利点を説明する。
論文参考訳（メタデータ） (2024-02-21T03:01:17Z)
Towards Enhanced Image Inpainting: Mitigating Unwanted Object Insertion and Preserving Color Consistency [78.0488707697235]
ASUKA(Aigned Stable Inpainting with UnKnown Areas)と呼ばれるポストプロセッシングアプローチは、インパインティングモデルを改善する。 Masked Auto-Encoder (MAE) は、オブジェクト幻覚を緩和する。ローカルタスクとしてラテント・ツー・イメージ・デコーディングを扱う特殊なVAEデコーダ。
論文参考訳（メタデータ） (2023-12-08T05:08:06Z)
Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion Models [94.25020178662392]
テキスト・トゥ・イメージ(T2I)の研究はこの1年で爆発的に成長した。テキストプロンプトエンジニアリングと、カスタマイズされた結果のための高品質なテキストプロンプトの検索は、科学よりも芸術的だ。本稿では,事前学習したT2I拡散モデルから"Text"を抽出し,ユーザの負担を軽減した。
論文参考訳（メタデータ） (2023-05-25T16:30:07Z)
BLIP-Diffusion: Pre-trained Subject Representation for Controllable Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文参考訳（メタデータ） (2023-05-24T04:51:04Z)
Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文参考訳（メタデータ） (2023-02-06T18:59:51Z)
SmartBrush: Text and Shape Guided Object Inpainting with Diffusion Model [27.91089554671927]
ジェネリック・イメージ・インペイントは、周辺情報を借りて、腐敗したイメージを完成させることを目的としている。対照的に、マルチモーダル・インパインティングは、インパインされたコンテンツに対してより柔軟で有用なコントロールを提供する。テキストと形状誘導の両方を用いて、オブジェクトで欠落した領域を完了するための拡散モデルSmartBrushを提案する。
論文参考訳（メタデータ） (2022-12-09T18:36:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。