論文の概要: EVCtrl: Efficient Control Adapter for Visual Generation
- arxiv url: http://arxiv.org/abs/2508.10963v1
- Date: Thu, 14 Aug 2025 14:11:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.615684
- Title: EVCtrl: Efficient Control Adapter for Visual Generation
- Title(参考訳): EVCtrl:ビジュアルジェネレーションのための効率的な制御アダプタ
- Authors: Zixiang Yang, Yue Ma, Yinhan Zhang, Shanhui Mo, Dongrui Liu, Linfeng Zhang,
- Abstract要約: モデルを再トレーニングすることなくオーバーヘッドを削減できる軽量なプラグアンドプレイ制御アダプタであるEVCtrlを導入する。
CogVideo-Controlnet,Wan2.1-Controlnet,Fluxの実験により,本手法が訓練を必要とせずに画像および映像制御生成に有効であることを実証した。
- 参考スコア(独自算出の注目度): 9.62167187199932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual generation includes both image and video generation, training probabilistic models to create coherent, diverse, and semantically faithful content from scratch. While early research focused on unconditional sampling, practitioners now demand controllable generation that allows precise specification of layout, pose, motion, or style. While ControlNet grants precise spatial-temporal control, its auxiliary branch markedly increases latency and introduces redundant computation in both uncontrolled regions and denoising steps, especially for video. To address this problem, we introduce EVCtrl, a lightweight, plug-and-play control adapter that slashes overhead without retraining the model. Specifically, we propose a spatio-temporal dual caching strategy for sparse control information. For spatial redundancy, we first profile how each layer of DiT-ControlNet responds to fine-grained control, then partition the network into global and local functional zones. A locality-aware cache focuses computation on the local zones that truly need the control signal, skipping the bulk of redundant computation in global regions. For temporal redundancy, we selectively omit unnecessary denoising steps to improve efficiency. Extensive experiments on CogVideo-Controlnet, Wan2.1-Controlnet, and Flux demonstrate that our method is effective in image and video control generation without the need for training. For example, it achieves 2.16 and 2.05 times speedups on CogVideo-Controlnet and Wan2.1-Controlnet, respectively, with almost no degradation in generation quality.Codes are available in the supplementary materials.
- Abstract(参考訳): ビジュアル生成には、画像生成とビデオ生成の両方が含まれ、一貫性があり多様な、意味的に忠実なコンテンツをスクラッチから作成するための確率モデルを訓練する。
初期の研究では、無条件サンプリングに焦点を当てていたが、現在では、レイアウト、ポーズ、モーション、スタイルの正確な指定を可能にする制御可能な世代が要求されている。
ControlNetは正確な時空間制御を許すが、その補助分岐は遅延を著しく増加させ、制御されていない領域と特にビデオのデノイングステップの両方で冗長な計算を導入する。
この問題に対処するために、モデルを再トレーニングすることなくオーバーヘッドを削減する軽量なプラグアンドプレイ制御アダプタであるEVCtrlを導入する。
具体的には,スパース制御情報に対する時空間二重キャッシュ方式を提案する。
空間冗長性については、まずDiT-ControlNetの各層が粒度制御にどのように反応するかをプロファイリングし、次にネットワークをグローバルおよびローカルな機能ゾーンに分割する。
局所性を考慮したキャッシュは、制御信号が本当に必要なローカルゾーンの計算に焦点を合わせ、グローバルリージョンにおける冗長な計算の大部分をスキップする。
時間的冗長性では、不要な除音ステップを選択的に省略し、効率を向上する。
CogVideo-Controlnet, Wan2.1-Controlnet, Flux の大規模な実験により,本手法はトレーニングを必要とせずに画像および映像制御生成に有効であることが示された。
例えば、CogVideo-ControlnetとWan2.1-Controlnetで2.16倍、2.05倍のスピードアップを実現しており、生成品質の劣化はほとんどない。
関連論文リスト
- CtrlVDiff: Controllable Video Generation via Unified Multimodal Video Diffusion [62.04833878126661]
統合拡散フレームワークにおける映像理解と制御可能な映像生成という2つの課題に対処する。
CtrlVDiffは、Hybrid Modality Control Strategy(HMCS)で訓練された統合拡散モデルであり、深度、正規度、セグメンテーション、エッジ、グラフィックベースの内在性(アルベド、粗さ、金属)から特徴を導出し、融合する。
理解と生成のベンチマーク全体にわたって、CtrlVDiffは優れた制御性と忠実さを提供し、レイヤワイズな編集(リライティング、材料調整、オブジェクト挿入)と最先端のベースラインを越えながら、いくつかのモダリティが利用できない場合の堅牢性を維持している。
論文 参考訳(メタデータ) (2025-11-26T07:27:11Z) - TempoControl: Temporal Attention Guidance for Text-to-Video Models [18.49685485536669]
本研究では,推論中の視覚概念の時間的アライメントを可能にするTempoControlを紹介する。
本手法は,時間的形状と制御信号との整合性,可視性が必要な場所での増幅,空間的焦点の維持という3つの相補的原理を用いて注意を喚起する。
単一オブジェクトと複数オブジェクトの時間的並べ替え、アクションおよびオーディオアライメント生成など、様々なビデオ生成アプリケーションにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2025-10-02T17:13:35Z) - Vivid-VR: Distilling Concepts from Text-to-Video Diffusion Transformer for Photorealistic Video Restoration [13.36145927735113]
先進的なT2Vファンデーションモデルに基づいて構築されたDiTベースの生成ビデオ復元手法であるVivid-VRを提案する。
Vivid-VRは, 実世界のベンチマークと実世界のベンチマークの両方において, 既存のアプローチに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2025-08-20T07:14:01Z) - FullDiT2: Efficient In-Context Conditioning for Video Diffusion Transformers [63.788600404496115]
FullDiT2は、ビデオ生成と編集の両方における一般的な制御性のための効率的なコンテキスト内条件付けフレームワークである。
FullDiT2は、拡散ステップ当たりの平均時間コストにおいて、計算の大幅な削減と2~3倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-06-04T17:57:09Z) - Enabling Versatile Controls for Video Diffusion Models [18.131652071161266]
VCtrlは、事前訓練されたビデオ拡散モデルのきめ細かい制御を可能にするように設計された新しいフレームワークである。
総合的な実験と人的評価により、VCtrlは制御性と生成品質を効果的に向上させる。
論文 参考訳(メタデータ) (2025-03-21T09:48:00Z) - ControlNeXt: Powerful and Efficient Control for Image and Video Generation [59.62289489036722]
制御可能画像と映像生成のための強力かつ効率的な制御NeXtを提案する。
まず、より単純で効率的なアーキテクチャを設計し、より重いブランチを最小限のコストで置き換えます。
トレーニングでは,学習可能なパラメータの最大90%を,代替案と比較して削減する。
論文 参考訳(メタデータ) (2024-08-12T11:41:18Z) - Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model [62.51232333352754]
Ctrl-Adapterは、事前訓練されたコントロールネットの適応を通じて、任意の画像/ビデオ拡散モデルに多様なコントロールを追加する。
6つの多様なU-Net/DiTベースの画像/ビデオ拡散モデルにより、Ctrl-AdapterはCOCO上の事前訓練されたコントロールネットのパフォーマンスと一致する。
論文 参考訳(メタデータ) (2024-04-15T17:45:36Z) - ControlNet-XS: Rethinking the Control of Text-to-Image Diffusion Models as Feedback-Control Systems [19.02295657801464]
本研究では,既存の制御ネットワーク(ControlNet)を用いて,制御ネットワークと生成プロセス間の通信を高周波かつ大帯域で変更する。
我々は,深度,キャニーエッジ,セマンティックセグメンテーションなどの画素レベルのガイダンスに対する最先端のアプローチよりも優れており,人間のポーズのゆるいキーポイントガイダンスと同等である。
すべてのコードと事前訓練されたモデルは公開されます。
論文 参考訳(メタデータ) (2023-12-11T17:58:06Z) - DragNUWA: Fine-grained Control in Video Generation by Integrating Text,
Image, and Trajectory [126.4597063554213]
DragNUWAは、オープンドメイン拡散に基づくビデオ生成モデルである。
意味的、空間的、時間的視点からビデオ内容のきめ細かい制御を提供する。
本実験はDragNUWAの有効性を検証し,ビデオ生成における微粒化制御における優れた性能を示した。
論文 参考訳(メタデータ) (2023-08-16T01:43:41Z) - Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models [82.19740045010435]
ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。
既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。
Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。