論文の概要: CtrLoRA: An Extensible and Efficient Framework for Controllable Image Generation
- arxiv url: http://arxiv.org/abs/2410.09400v1
- Date: Sat, 12 Oct 2024 07:04:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 14:34:09.549390
- Title: CtrLoRA: An Extensible and Efficient Framework for Controllable Image Generation
- Title(参考訳): CtrLoRA: 制御可能な画像生成のための拡張可能で効率的なフレームワーク
- Authors: Yifeng Xu, Zhenliang He, Shiguang Shan, Xilin Chen,
- Abstract要約: 本稿では,複数のベース条件からイメージ・ツー・イメージ生成の共通知識を学習するために,ベース制御ネットを訓練するCtrLoRAフレームワークを提案する。
学習可能なパラメータをControlNetと比較して90%削減し,モデルの重み付けとデプロイのしきい値を大幅に下げる。
- 参考スコア(独自算出の注目度): 69.43106794519193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, large-scale diffusion models have made impressive progress in text-to-image (T2I) generation. To further equip these T2I models with fine-grained spatial control, approaches like ControlNet introduce an extra network that learns to follow a condition image. However, for every single condition type, ControlNet requires independent training on millions of data pairs with hundreds of GPU hours, which is quite expensive and makes it challenging for ordinary users to explore and develop new types of conditions. To address this problem, we propose the CtrLoRA framework, which trains a Base ControlNet to learn the common knowledge of image-to-image generation from multiple base conditions, along with condition-specific LoRAs to capture distinct characteristics of each condition. Utilizing our pretrained Base ControlNet, users can easily adapt it to new conditions, requiring as few as 1,000 data pairs and less than one hour of single-GPU training to obtain satisfactory results in most scenarios. Moreover, our CtrLoRA reduces the learnable parameters by 90% compared to ControlNet, significantly lowering the threshold to distribute and deploy the model weights. Extensive experiments on various types of conditions demonstrate the efficiency and effectiveness of our method. Codes and model weights will be released at https://github.com/xyfJASON/ctrlora.
- Abstract(参考訳): 近年,テキスト・ツー・イメージ(T2I)生成において,大規模な拡散モデルが顕著に進展している。
これらのT2Iモデルを微粒な空間制御でさらに装備するために、ControlNetのようなアプローチでは、条件画像に従うことを学習する余分なネットワークが導入されている。
しかし、すべての条件タイプに対して、ControlNetは数百のGPU時間を持つ数百万のデータペアの独立したトレーニングを必要とします。
この問題に対処するために,複数のベース条件からイメージ・ツー・イメージ生成の共通知識を学習するためにベース制御ネットを訓練するCtrLoRAフレームワークを提案する。
トレーニング済みのBase ControlNetを利用することで、ユーザーはそれを新しい条件に容易に適応することができ、ほとんどのシナリオで満足な結果を得るためには、1,000のデータペアと1時間未満のシングルGPUトレーニングが必要です。
さらに、我々のCtrLoRAは、ControlNetと比較して学習可能なパラメータを90%削減し、モデルの重み付けを分散および展開するしきい値を大幅に下げます。
各種条件に対する広範囲な実験により,本手法の有効性と有効性を示した。
コードとモデルの重み付けはhttps://github.com/xyfJASON/ctrlora.comで公開される。
関連論文リスト
- ControlNeXt: Powerful and Efficient Control for Image and Video Generation [59.62289489036722]
制御可能画像と映像生成のための強力かつ効率的な制御NeXtを提案する。
まず、より単純で効率的なアーキテクチャを設計し、より重いブランチを最小限のコストで置き換えます。
トレーニングでは,学習可能なパラメータの最大90%を,代替案と比較して削減する。
論文 参考訳(メタデータ) (2024-08-12T11:41:18Z) - OmniControlNet: Dual-stage Integration for Conditional Image Generation [61.1432268643639]
我々は、外部条件生成アルゴリズムを1つの高密度予測法に統合することにより、広く採用されているコントロールネットの双方向統合を提供する。
提案したOmniControlNetは,1)タスク埋め込み指導下での1つのマルチタスク高密度予測アルゴリズムによる条件生成と,2)テキスト埋め込み指導下での異なる条件付き画像生成プロセスを統合した。
論文 参考訳(メタデータ) (2024-06-09T18:03:47Z) - Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model [62.51232333352754]
Ctrl-Adapterは、事前訓練されたコントロールネットの適応を通じて、任意の画像/ビデオ拡散モデルに多様なコントロールを追加する。
6つの多様なU-Net/DiTベースの画像/ビデオ拡散モデルにより、Ctrl-AdapterはCOCO上の事前訓練されたコントロールネットのパフォーマンスと一致する。
論文 参考訳(メタデータ) (2024-04-15T17:45:36Z) - ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback [20.910939141948123]
ControlNet++は、生成した画像と条件付き制御の間のピクセルレベルのサイクル一貫性を明示的に最適化することで、制御可能な生成を改善する新しいアプローチである。
ControlNetの11.1%のmIoU、13.4%のSSIM、7.6%のRMSE、それぞれセグメンテーションマスク、ラインアートエッジ、深さ条件の改善を実現している。
論文 参考訳(メタデータ) (2024-04-11T17:59:09Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models [82.19740045010435]
ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。
既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。
Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:58Z) - Adding Conditional Control to Text-to-Image Diffusion Models [37.98427255384245]
大規模で事前訓練されたテキスト-画像拡散モデルに空間条件制御を追加するニューラルネットワークアーキテクチャであるControlNetを提案する。
ControlNetはプロダクション対応の大規模な拡散モデルをロックし、数十億のイメージで事前訓練されたディープで堅牢なエンコーディング層を強力なバックボーンとして再利用して、さまざまな条件付きコントロールを学ぶ。
論文 参考訳(メタデータ) (2023-02-10T23:12:37Z) - Towards Faster and Stabilized GAN Training for High-fidelity Few-shot
Image Synthesis [21.40315235087551]
1024*1024解像度で優れた品質を得る軽量GAN構造を提案します。
データとコンピューティングの予算が限られている場合、私たちのモデルが最先端のstylegan2よりも優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2021-01-12T22:02:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。