論文の概要: Adding Conditional Control to Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2302.05543v1
- Date: Fri, 10 Feb 2023 23:12:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 19:56:33.169833
- Title: Adding Conditional Control to Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルへの条件制御の追加
- Authors: Lvmin Zhang and Maneesh Agrawala
- Abstract要約: 本研究では,事前学習した大規模拡散モデルを制御するニューラルネットワーク構造であるControlNetを提案する。
ControlNetは、エンドツーエンドでタスク固有の条件を学習し、トレーニングデータセットが小さい場合でも、学習は堅牢である。
- 参考スコア(独自算出の注目度): 43.80659571226967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a neural network structure, ControlNet, to control pretrained
large diffusion models to support additional input conditions. The ControlNet
learns task-specific conditions in an end-to-end way, and the learning is
robust even when the training dataset is small (< 50k). Moreover, training a
ControlNet is as fast as fine-tuning a diffusion model, and the model can be
trained on a personal devices. Alternatively, if powerful computation clusters
are available, the model can scale to large amounts (millions to billions) of
data. We report that large diffusion models like Stable Diffusion can be
augmented with ControlNets to enable conditional inputs like edge maps,
segmentation maps, keypoints, etc. This may enrich the methods to control large
diffusion models and further facilitate related applications.
- Abstract(参考訳): 本稿では,事前学習された大規模拡散モデルを制御するニューラルネットワーク構造 controlnet を提案する。
ControlNetはエンドツーエンドでタスク固有の条件を学習し、トレーニングデータセットが小さくても堅牢である(50k)。
さらに、ControlNetのトレーニングは拡散モデルを微調整するのと同じくらい高速であり、モデルをパーソナルデバイスでトレーニングすることができる。
あるいは、強力な計算クラスタが利用可能であれば、モデルは大量のデータ(数百万から数十億)にスケールできる。
エッジマップ,セグメンテーションマップ,キーポイントなど条件付き入力を可能にするために,安定拡散のような大きな拡散モデルが制御ネットで拡張可能であることを報告する。
これにより、大きな拡散モデルを制御する方法が強化され、関連する応用がさらに促進される。
関連論文リスト
- SCEdit: Efficient and Controllable Image Diffusion Generation via Skip
Connection Editing [18.508719350413802]
SCEdit と呼ばれる,Skip Connection を統合し編集する効率的な生成チューニングフレームワークを提案する。
SCEditはトレーニングパラメータ、メモリ使用量、計算コストを大幅に削減する。
テキスト・ツー・イメージ生成と制御可能な画像合成タスクの実験は、効率と性能の観点から、本手法の優位性を実証している。
論文 参考訳(メタデータ) (2023-12-18T17:54:14Z) - CCM: Adding Conditional Controls to Text-to-Image Consistency Models [89.75377958996305]
本稿では,Consistency Models に ControlNet のような条件制御を追加するための代替戦略を検討する。
軽量アダプタは、一貫性トレーニングを通じて、複数の条件下で共同で最適化することができる。
これらの3つの解は, エッジ, 奥行き, 人間のポーズ, 低解像度画像, マスキング画像など, 様々な条件制御にまたがる。
論文 参考訳(メタデータ) (2023-12-12T04:16:03Z) - ControlNet-XS: Designing an Efficient and Effective Architecture for
Controlling Text-to-Image Diffusion Models [21.379896810560282]
一般的なアプローチは、Stable Diffusionのようなトレーニング済みの画像生成モデルと組み合わせて、ControlNetのような制御ネットワークを使用することである。
本研究では,制御ネットXSと呼ばれる新しい制御アーキテクチャを提案する。
ControlNetとは対照的に、私たちのモデルはパラメータのごく一部しか必要とせず、推論やトレーニング時間の約2倍の速度です。
論文 参考訳(メタデータ) (2023-12-11T17:58:06Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - Zero123++: a Single Image to Consistent Multi-view Diffusion Base Model [30.44339780026541]
Zero123++は、単一の入力ビューから3D一貫性のあるマルチビュー画像を生成するための画像条件拡散モデルである。
我々は,市販画像拡散モデルからの微調整の労力を最小限に抑えるために,様々な条件付けと訓練手法を開発した。
論文 参考訳(メタデータ) (2023-10-23T17:18:59Z) - Cocktail: Mixing Multi-Modality Controls for Text-Conditional Image
Generation [79.8881514424969]
テキスト条件拡散モデルは多種多様な内容の高忠実度画像を生成することができる。
しかし、言語表現はしばしば、想定された目的像の曖昧な記述を示す。
様々なモダリティを1つの埋め込みに混ぜるパイプラインであるCocktailを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:55:32Z) - Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models [82.19740045010435]
ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。
既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。
Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:58Z) - UniControl: A Unified Diffusion Model for Controllable Visual Generation
In the Wild [166.25327094261038]
制御可能なコンディション・トゥ・イメージ(C2I)タスクのための新しい生成基盤モデルUniControlを紹介する。
UniControlは、任意の言語プロンプトを許容しながら、特定のフレームワーク内で幅広いC2Iタスクを統合する。
9つのユニークなC2Iタスクで訓練されたUniControlは、印象的なゼロショット生成能力を誇示している。
論文 参考訳(メタデータ) (2023-05-18T17:41:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。