論文の概要: Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model
- arxiv url: http://arxiv.org/abs/2404.09967v1
- Date: Mon, 15 Apr 2024 17:45:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 21:18:06.089802
- Title: Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model
- Title(参考訳): Ctrl-Adapter:任意の拡散モデルに分散制御を適応するための効率的でヴァーサタイルなフレームワーク
- Authors: Han Lin, Jaemin Cho, Abhay Zala, Mohit Bansal,
- Abstract要約: Ctrl-Adapterは、画像/ビデオ拡散モデルに多様な制御を追加する効率的なフレームワークである。
Ctrl-Adapterは、画像制御、ビデオ制御、スパースフレームによるビデオ制御、マルチ条件制御、ビデオ編集などの機能を提供する。
多様な画像/ビデオ拡散バックボーン(SDXL、Hotshot-XL、I2VGen-XL、SVD)により、Ctrl-Adapterはコントロールネットとマッチングし、ビデオ制御のすべてのベースラインを上回っている。
- 参考スコア(独自算出の注目度): 62.51232333352754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ControlNets are widely used for adding spatial control in image generation with different conditions, such as depth maps, canny edges, and human poses. However, there are several challenges when leveraging the pretrained image ControlNets for controlled video generation. First, pretrained ControlNet cannot be directly plugged into new backbone models due to the mismatch of feature spaces, and the cost of training ControlNets for new backbones is a big burden. Second, ControlNet features for different frames might not effectively handle the temporal consistency. To address these challenges, we introduce Ctrl-Adapter, an efficient and versatile framework that adds diverse controls to any image/video diffusion models, by adapting pretrained ControlNets (and improving temporal alignment for videos). Ctrl-Adapter provides diverse capabilities including image control, video control, video control with sparse frames, multi-condition control, compatibility with different backbones, adaptation to unseen control conditions, and video editing. In Ctrl-Adapter, we train adapter layers that fuse pretrained ControlNet features to different image/video diffusion models, while keeping the parameters of the ControlNets and the diffusion models frozen. Ctrl-Adapter consists of temporal and spatial modules so that it can effectively handle the temporal consistency of videos. We also propose latent skipping and inverse timestep sampling for robust adaptation and sparse control. Moreover, Ctrl-Adapter enables control from multiple conditions by simply taking the (weighted) average of ControlNet outputs. With diverse image/video diffusion backbones (SDXL, Hotshot-XL, I2VGen-XL, and SVD), Ctrl-Adapter matches ControlNet for image control and outperforms all baselines for video control (achieving the SOTA accuracy on the DAVIS 2017 dataset) with significantly lower computational costs (less than 10 GPU hours).
- Abstract(参考訳): ControlNetは、深度マップ、キャニーエッジ、人間のポーズなど、さまざまな条件で画像生成に空間制御を追加するために広く使用されている。
しかし、事前訓練された画像制御ネットを制御ビデオ生成に利用する際には、いくつかの課題がある。
まず、事前訓練されたControlNetは、機能空間のミスマッチのため、新しいバックボーンモデルに直接プラグインできない。
第2に、異なるフレームのControlNet機能は、時間的一貫性を効果的に扱えない可能性がある。
これらの課題に対処するために、Ctrl-Adapterを導入する。Ctrl-Adapterは、任意の画像/ビデオ拡散モデルに対して、事前トレーニングされたControlNet(ビデオの時間的アライメントの改善)を適用することにより、多様なコントロールを追加する、効率的で汎用的なフレームワークである。
Ctrl-Adapterは、画像制御、ビデオ制御、スパースフレームによるビデオ制御、マルチ条件制御、異なるバックボーンとの互換性、見えない制御条件への適応、ビデオ編集など、多様な機能を提供する。
Ctrl-Adapterでは、CtrlNetのパラメータと拡散モデルの凍結を維持しながら、トレーニング済みのControlNet機能を異なる画像/ビデオ拡散モデルに融合するアダプタ層を訓練する。
Ctrl-Adapterは時間的および空間的なモジュールで構成されており、ビデオの時間的一貫性を効果的に扱うことができる。
また,頑健な適応とスパース制御のための潜時スキップと逆時間ステップサンプリングを提案する。
さらに、Ctrl-Adapterは、制御ネット出力の(重み付けされた)平均を取るだけで、複数の条件から制御できる。
多様な画像/ビデオ拡散バックボーン(SDXL、Hotshot-XL、I2VGen-XL、SVD)により、Ctrl-Adapterは、画像制御のためのControlNetにマッチし、ビデオ制御のためのすべてのベースライン(DAVIS 2017データセットでのSOTA精度を達成する)をはるかに低い計算コスト(10GPU時間未満)で上回る。
関連論文リスト
- CameraCtrl: Enabling Camera Control for Text-to-Video Generation [86.36135895375425]
ユーザーが希望するコンテンツを作成することができるため、ビデオ生成において制御性は重要な役割を担っている。
既存のモデルは、撮影言語として機能するカメラポーズの正確な制御をほとんど見落としていた。
我々は、テキスト・トゥ・ビデオ(T2V)モデルの正確なカメラポーズ制御を可能にするCameraCtrlを紹介する。
論文 参考訳(メタデータ) (2024-04-02T16:52:41Z) - FineControlNet: Fine-level Text Control for Image Generation with
Spatially Aligned Text Control Injection [28.65209293141492]
FineControlNetは、正確なポーズ制御能力を維持しながら、各インスタンスの外観を細かく制御する。
FineControlNetは、ユーザが提供したインスタンス固有のテキストプロンプトとポーズに従うイメージを生成する上で、優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-12-14T18:59:43Z) - CCM: Adding Conditional Controls to Text-to-Image Consistency Models [89.75377958996305]
本稿では,Consistency Models に ControlNet のような条件制御を追加するための代替戦略を検討する。
軽量アダプタは、一貫性トレーニングを通じて、複数の条件下で共同で最適化することができる。
これらの3つの解は, エッジ, 奥行き, 人間のポーズ, 低解像度画像, マスキング画像など, 様々な条件制御にまたがる。
論文 参考訳(メタデータ) (2023-12-12T04:16:03Z) - ControlNet-XS: Designing an Efficient and Effective Architecture for
Controlling Text-to-Image Diffusion Models [21.379896810560282]
一般的なアプローチは、Stable Diffusionのようなトレーニング済みの画像生成モデルと組み合わせて、ControlNetのような制御ネットワークを使用することである。
本研究では,制御ネットXSと呼ばれる新しい制御アーキテクチャを提案する。
ControlNetとは対照的に、私たちのモデルはパラメータのごく一部しか必要とせず、推論やトレーニング時間の約2倍の速度です。
論文 参考訳(メタデータ) (2023-12-11T17:58:06Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - MVControl: Adding Conditional Control to Multi-view Diffusion for
Controllable Text-to-3D Generation [10.250715657201363]
既存のトレーニング済みマルチビュー2D拡散モデルを強化するニューラルネットワークアーキテクチャであるMVControlを紹介する。
提案手法により,制御可能なマルチビュー画像と3Dコンテンツの生成が可能となる。
論文 参考訳(メタデータ) (2023-11-24T14:07:53Z) - Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models [82.19740045010435]
ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。
既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。
Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:58Z) - UniControl: A Unified Diffusion Model for Controllable Visual Generation
In the Wild [166.25327094261038]
制御可能なコンディション・トゥ・イメージ(C2I)タスクのための新しい生成基盤モデルUniControlを紹介する。
UniControlは、任意の言語プロンプトを許容しながら、特定のフレームワーク内で幅広いC2Iタスクを統合する。
9つのユニークなC2Iタスクで訓練されたUniControlは、印象的なゼロショット生成能力を誇示している。
論文 参考訳(メタデータ) (2023-05-18T17:41:34Z) - Adding Conditional Control to Text-to-Image Diffusion Models [37.98427255384245]
大規模で事前訓練されたテキスト-画像拡散モデルに空間条件制御を追加するニューラルネットワークアーキテクチャであるControlNetを提案する。
ControlNetはプロダクション対応の大規模な拡散モデルをロックし、数十億のイメージで事前訓練されたディープで堅牢なエンコーディング層を強力なバックボーンとして再利用して、さまざまな条件付きコントロールを学ぶ。
論文 参考訳(メタデータ) (2023-02-10T23:12:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。