論文の概要: ControlNeXt: Powerful and Efficient Control for Image and Video Generation
- arxiv url: http://arxiv.org/abs/2408.06070v2
- Date: Thu, 15 Aug 2024 02:08:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 10:43:38.337481
- Title: ControlNeXt: Powerful and Efficient Control for Image and Video Generation
- Title(参考訳): ControlNeXt:画像と映像の高効率制御
- Authors: Bohao Peng, Jian Wang, Yuechen Zhang, Wenbo Li, Ming-Chang Yang, Jiaya Jia,
- Abstract要約: 制御可能画像と映像生成のための強力かつ効率的な制御NeXtを提案する。
まず、より単純で効率的なアーキテクチャを設計し、より重いブランチを最小限のコストで置き換えます。
トレーニングでは,学習可能なパラメータの最大90%を,代替案と比較して削減する。
- 参考スコア(独自算出の注目度): 59.62289489036722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have demonstrated remarkable and robust abilities in both image and video generation. To achieve greater control over generated results, researchers introduce additional architectures, such as ControlNet, Adapters and ReferenceNet, to integrate conditioning controls. However, current controllable generation methods often require substantial additional computational resources, especially for video generation, and face challenges in training or exhibit weak control. In this paper, we propose ControlNeXt: a powerful and efficient method for controllable image and video generation. We first design a more straightforward and efficient architecture, replacing heavy additional branches with minimal additional cost compared to the base model. Such a concise structure also allows our method to seamlessly integrate with other LoRA weights, enabling style alteration without the need for additional training. As for training, we reduce up to 90% of learnable parameters compared to the alternatives. Furthermore, we propose another method called Cross Normalization (CN) as a replacement for Zero-Convolution' to achieve fast and stable training convergence. We have conducted various experiments with different base models across images and videos, demonstrating the robustness of our method.
- Abstract(参考訳): 拡散モデルは、画像生成とビデオ生成の両方において顕著でロバストな能力を示している。
生成された結果をよりコントロールするために、コンディショニングコントロールを統合するために、ControlNet、Adapters、ReferenceNetなどのアーキテクチャが導入されている。
しかし、現在の制御可能な生成法は、特にビデオ生成において、かなりの計算資源を必要とすることが多く、訓練や弱い制御の際の課題に直面している。
本稿では,制御可能画像と映像生成のための高効率な制御NeXtを提案する。
まず、より単純で効率的なアーキテクチャを設計し、ベースモデルに比べて最小限のコストで重いブランチを置き換えます。
このような簡潔な構造により、我々の手法は他のLoRA重みとシームレスに統合することができ、追加のトレーニングを必要とせずにスタイルの変更を可能にする。
トレーニングでは,学習可能なパラメータの最大90%を,代替案と比較して削減する。
さらに,Zero-Convolutionの代替としてクロス正規化(CN)と呼ばれる別の手法を提案し,高速で安定したトレーニング収束を実現する。
我々は画像とビデオの異なるベースモデルを用いて様々な実験を行い、その頑健さを実証した。
関連論文リスト
- CtrLoRA: An Extensible and Efficient Framework for Controllable Image Generation [69.43106794519193]
本稿では,複数のベース条件からイメージ・ツー・イメージ生成の共通知識を学習するために,ベース制御ネットを訓練するCtrLoRAフレームワークを提案する。
学習可能なパラメータをControlNetと比較して90%削減し,モデルの重み付けとデプロイのしきい値を大幅に下げる。
論文 参考訳(メタデータ) (2024-10-12T07:04:32Z) - EasyControl: Transfer ControlNet to Video Diffusion for Controllable Generation and Interpolation [73.80275802696815]
本稿では、ビデオ生成のためのEasyControlというユニバーサルフレームワークを提案する。
提案手法により,ユーザーは単一の条件マップで映像生成を制御できる。
その結果,UCF101とMSR-VTTのFVDおよびISが向上した。
論文 参考訳(メタデータ) (2024-08-23T11:48:29Z) - ControlVAR: Exploring Controllable Visual Autoregressive Modeling [48.66209303617063]
拡散モデル(DM)の出現により、条件付き視覚発生は顕著に進展した。
高価な計算コスト、高い推論遅延、大規模言語モデル(LLM)との統合の難しさといった課題は、DMに代わる方法を模索する必要がある。
本稿では,フレキシブルかつ効率的な条件生成のための視覚自己回帰モデリングにおける画素レベル制御を探求する新しいフレームワークであるControlmoreを紹介する。
論文 参考訳(メタデータ) (2024-06-14T06:35:33Z) - Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model [62.51232333352754]
Ctrl-Adapterは、事前訓練されたコントロールネットの適応を通じて、任意の画像/ビデオ拡散モデルに多様なコントロールを追加する。
6つの多様なU-Net/DiTベースの画像/ビデオ拡散モデルにより、Ctrl-AdapterはCOCO上の事前訓練されたコントロールネットのパフォーマンスと一致する。
論文 参考訳(メタデータ) (2024-04-15T17:45:36Z) - Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models [82.19740045010435]
ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。
既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。
Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:58Z) - Learning a Contact-Adaptive Controller for Robust, Efficient Legged
Locomotion [95.1825179206694]
四足歩行ロボットのためのロバストコントローラを合成するフレームワークを提案する。
高レベルコントローラは、環境の変化に応じてプリミティブのセットを選択することを学習する。
確立された制御方法を使用してプリミティブを堅牢に実行する低レベルコントローラ。
論文 参考訳(メタデータ) (2020-09-21T16:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。