論文の概要: Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2305.16322v3
- Date: Sun, 29 Oct 2023 15:59:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 22:02:51.622013
- Title: Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models
- Title(参考訳): Uni-ControlNet:テキスト間拡散モデルへのオールインワン制御
- Authors: Shihao Zhao and Dongdong Chen and Yen-Chun Chen and Jianmin Bao and
Shaozhe Hao and Lu Yuan and Kwan-Yee K. Wong
- Abstract要約: ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。
既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。
Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 82.19740045010435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-Image diffusion models have made tremendous progress over the past
two years, enabling the generation of highly realistic images based on
open-domain text descriptions. However, despite their success, text
descriptions often struggle to adequately convey detailed controls, even when
composed of long and complex texts. Moreover, recent studies have also shown
that these models face challenges in understanding such complex texts and
generating the corresponding images. Therefore, there is a growing need to
enable more control modes beyond text description. In this paper, we introduce
Uni-ControlNet, a unified framework that allows for the simultaneous
utilization of different local controls (e.g., edge maps, depth map,
segmentation masks) and global controls (e.g., CLIP image embeddings) in a
flexible and composable manner within one single model. Unlike existing
methods, Uni-ControlNet only requires the fine-tuning of two additional
adapters upon frozen pre-trained text-to-image diffusion models, eliminating
the huge cost of training from scratch. Moreover, thanks to some dedicated
adapter designs, Uni-ControlNet only necessitates a constant number (i.e., 2)
of adapters, regardless of the number of local or global controls used. This
not only reduces the fine-tuning costs and model size, making it more suitable
for real-world deployment, but also facilitate composability of different
conditions. Through both quantitative and qualitative comparisons,
Uni-ControlNet demonstrates its superiority over existing methods in terms of
controllability, generation quality and composability. Code is available at
\url{https://github.com/ShihaoZhaoZSH/Uni-ControlNet}.
- Abstract(参考訳): テキスト間拡散モデルは過去2年間に大きく進歩し、オープンドメインのテキスト記述に基づく非常にリアルな画像の生成を可能にした。
しかし、その成功にもかかわらず、テキスト記述は長く複雑なテキストであっても、詳細な制御を適切に伝えるのに苦労することが多い。
さらに、近年の研究では、これらのモデルがこのような複雑なテキストを理解し、対応する画像を生成する上での課題に直面していることも示されている。
そのため、テキスト記述以上の制御モードを有効にする必要性が増している。
本稿では,Uni-ControlNetについて紹介する。このフレームワークは,複数のローカルコントロール(エッジマップ,深度マップ,セグメンテーションマスクなど)とグローバルコントロール(CLIPイメージ埋め込みなど)を,単一のモデル内で柔軟かつ構成可能な方法で同時利用可能にする。
既存の方法とは異なり、Uni-ControlNetでは、凍結訓練済みのテキスト-画像拡散モデルに2つの追加アダプタを微調整するだけで、トレーニングの膨大なコストをゼロから排除できる。
さらに、いくつかの専用のアダプタ設計のおかげで、uni-controlnetは使用するローカルまたはグローバルコントロールの数に関係なく、アダプタの一定数(つまり2つ)しか必要としない。
これにより、微調整コストとモデルサイズが削減され、現実のデプロイメントにより適するだけでなく、異なる条件のコンポーザビリティも向上する。
定量的および質的な比較を通じて、Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存の方法よりも優れていることを示す。
コードは \url{https://github.com/shihaozhaozsh/uni-controlnet} で入手できる。
関連論文リスト
- FreeControl: Training-Free Spatial Control of Any Text-to-Image
Diffusion Model with Any Condition [41.92032568474062]
FreeControlは、制御可能なT2I生成のためのトレーニング不要のアプローチである。
複数の条件、アーキテクチャ、チェックポイントを同時にサポートする。
トレーニングベースのアプローチで、競争力のある合成品質を実現する。
論文 参考訳(メタデータ) (2023-12-12T18:59:14Z) - CCM: Adding Conditional Controls to Text-to-Image Consistency Models [89.75377958996305]
本稿では,Consistency Models に ControlNet のような条件制御を追加するための代替戦略を検討する。
軽量アダプタは、一貫性トレーニングを通じて、複数の条件下で共同で最適化することができる。
これらの3つの解は, エッジ, 奥行き, 人間のポーズ, 低解像度画像, マスキング画像など, 様々な条件制御にまたがる。
論文 参考訳(メタデータ) (2023-12-12T04:16:03Z) - ControlNet-XS: Designing an Efficient and Effective Architecture for
Controlling Text-to-Image Diffusion Models [21.379896810560282]
一般的なアプローチは、Stable Diffusionのようなトレーニング済みの画像生成モデルと組み合わせて、ControlNetのような制御ネットワークを使用することである。
本研究では,制御ネットXSと呼ばれる新しい制御アーキテクチャを提案する。
ControlNetとは対照的に、私たちのモデルはパラメータのごく一部しか必要とせず、推論やトレーニング時間の約2倍の速度です。
論文 参考訳(メタデータ) (2023-12-11T17:58:06Z) - Cocktail: Mixing Multi-Modality Controls for Text-Conditional Image
Generation [79.8881514424969]
テキスト条件拡散モデルは多種多様な内容の高忠実度画像を生成することができる。
しかし、言語表現はしばしば、想定された目的像の曖昧な記述を示す。
様々なモダリティを1つの埋め込みに混ぜるパイプラインであるCocktailを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:55:32Z) - BLIP-Diffusion: Pre-trained Subject Representation for Controllable
Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。
他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文 参考訳(メタデータ) (2023-05-24T04:51:04Z) - UniControl: A Unified Diffusion Model for Controllable Visual Generation
In the Wild [166.25327094261038]
制御可能なコンディション・トゥ・イメージ(C2I)タスクのための新しい生成基盤モデルUniControlを紹介する。
UniControlは、任意の言語プロンプトを許容しながら、特定のフレームワーク内で幅広いC2Iタスクを統合する。
9つのユニークなC2Iタスクで訓練されたUniControlは、印象的なゼロショット生成能力を誇示している。
論文 参考訳(メタデータ) (2023-05-18T17:41:34Z) - Adding Conditional Control to Text-to-Image Diffusion Models [37.98427255384245]
大規模で事前訓練されたテキスト-画像拡散モデルに空間条件制御を追加するニューラルネットワークアーキテクチャであるControlNetを提案する。
ControlNetはプロダクション対応の大規模な拡散モデルをロックし、数十億のイメージで事前訓練されたディープで堅牢なエンコーディング層を強力なバックボーンとして再利用して、さまざまな条件付きコントロールを学ぶ。
論文 参考訳(メタデータ) (2023-02-10T23:12:37Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。