論文の概要: Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model
- arxiv url: http://arxiv.org/abs/2404.09967v2
- Date: Fri, 24 May 2024 16:29:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 20:27:27.316941
- Title: Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model
- Title(参考訳): Ctrl-Adapter:任意の拡散モデルに分散制御を適応するための効率的でヴァーサタイルなフレームワーク
- Authors: Han Lin, Jaemin Cho, Abhay Zala, Mohit Bansal,
- Abstract要約: Ctrl-Adapterは、事前訓練されたコントロールネットの適応を通じて、任意の画像/ビデオ拡散モデルに多様なコントロールを追加する。
6つの多様なU-Net/DiTベースの画像/ビデオ拡散モデルにより、Ctrl-AdapterはCOCO上の事前訓練されたコントロールネットのパフォーマンスと一致する。
- 参考スコア(独自算出の注目度): 62.51232333352754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ControlNets are widely used for adding spatial control to text-to-image diffusion models with different conditions, such as depth maps, scribbles/sketches, and human poses. However, when it comes to controllable video generation, ControlNets cannot be directly integrated into new backbones due to feature space mismatches, and training ControlNets for new backbones can be a significant burden for many users. Furthermore, applying ControlNets independently to different frames cannot effectively maintain object temporal consistency. To address these challenges, we introduce Ctrl-Adapter, an efficient and versatile framework that adds diverse controls to any image/video diffusion model through the adaptation of pretrained ControlNets. Ctrl-Adapter offers strong and diverse capabilities, including image and video control, sparse-frame video control, fine-grained patch-level multi-condition control (via an MoE router), zero-shot adaptation to unseen conditions, and supports a variety of downstream tasks beyond spatial control, including video editing, video style transfer, and text-guided motion control. With six diverse U-Net/DiT-based image/video diffusion models (SDXL, PixArt-$\alpha$, I2VGen-XL, SVD, Latte, Hotshot-XL), Ctrl-Adapter matches the performance of pretrained ControlNets on COCO and achieves the state-of-the-art on DAVIS 2017 with significantly lower computation (< 10 GPU hours).
- Abstract(参考訳): ControlNetは、深度マップ、スクリブル/スケッチ、人間のポーズなど、異なる条件でテキストと画像の拡散モデルに空間制御を追加するために広く使用されている。
しかし、コントロール可能なビデオ生成に関しては、機能空間のミスマッチのため、コントロールネットを新しいバックボーンに直接統合することはできない。
さらに、異なるフレームに独立してControlNetを適用することは、オブジェクトの時間的一貫性を効果的に維持することはできない。
これらの課題に対処するために、Ctrl-Adapterを紹介した。Ctrl-Adapterは、任意の画像/ビデオ拡散モデルに、事前訓練された制御ネットの適応を通じて、多様な制御を追加する、効率的で汎用的なフレームワークである。
Ctrl-Adapterは、画像とビデオの制御、スパースフレームのビデオ制御、(MoEルータを介して)きめ細かいパッチレベルのマルチコンディション制御、見えない条件へのゼロショット適応、ビデオ編集、ビデオスタイル転送、テキスト誘導モーションコントロールなど、様々なダウンストリームタスクをサポートするなど、強力で多様な機能を提供する。
6つの多様なU-Net/DiTベースの画像/ビデオ拡散モデル(SDXL、PixArt-$\alpha$、I2VGen-XL、SVD、Latte、Hotshot-XL)により、Ctrl-AdapterはCOCO上の事前訓練されたコントロールネットのパフォーマンスと一致し、DAVIS 2017における最先端の計算(10GPU時間)を達成する。
関連論文リスト
- CtrLoRA: An Extensible and Efficient Framework for Controllable Image Generation [69.43106794519193]
本稿では,複数のベース条件からイメージ・ツー・イメージ生成の共通知識を学習するために,ベース制御ネットを訓練するCtrLoRAフレームワークを提案する。
学習可能なパラメータをControlNetと比較して90%削減し,モデルの重み付けとデプロイのしきい値を大幅に下げる。
論文 参考訳(メタデータ) (2024-10-12T07:04:32Z) - EasyControl: Transfer ControlNet to Video Diffusion for Controllable Generation and Interpolation [73.80275802696815]
本稿では、ビデオ生成のためのEasyControlというユニバーサルフレームワークを提案する。
提案手法により,ユーザーは単一の条件マップで映像生成を制御できる。
その結果,UCF101とMSR-VTTのFVDおよびISが向上した。
論文 参考訳(メタデータ) (2024-08-23T11:48:29Z) - ControlNeXt: Powerful and Efficient Control for Image and Video Generation [59.62289489036722]
制御可能画像と映像生成のための強力かつ効率的な制御NeXtを提案する。
まず、より単純で効率的なアーキテクチャを設計し、より重いブランチを最小限のコストで置き換えます。
トレーニングでは,学習可能なパラメータの最大90%を,代替案と比較して削減する。
論文 参考訳(メタデータ) (2024-08-12T11:41:18Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models [82.19740045010435]
ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。
既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。
Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:58Z) - Adding Conditional Control to Text-to-Image Diffusion Models [37.98427255384245]
大規模で事前訓練されたテキスト-画像拡散モデルに空間条件制御を追加するニューラルネットワークアーキテクチャであるControlNetを提案する。
ControlNetはプロダクション対応の大規模な拡散モデルをロックし、数十億のイメージで事前訓練されたディープで堅牢なエンコーディング層を強力なバックボーンとして再利用して、さまざまな条件付きコントロールを学ぶ。
論文 参考訳(メタデータ) (2023-02-10T23:12:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。