論文の概要: EasyControl: Adding Efficient and Flexible Control for Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2503.07027v1
- Date: Mon, 10 Mar 2025 08:07:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:48:04.923970
- Title: EasyControl: Adding Efficient and Flexible Control for Diffusion Transformer
- Title(参考訳): EasyControl: 拡散変換器の高効率化とフレキシブル化
- Authors: Yuxuan Zhang, Yirui Yuan, Yiren Song, Haofan Wang, Jiaming Liu,
- Abstract要約: 条件誘導拡散変換器を高効率かつ柔軟性で統一する新しいフレームワークであるEasyControlを提案する。
まず、軽量なCondition Injection LoRA Moduleを紹介します。
第2に,任意のアスペクト比とフレキシブルな解像度を持つ画像の生成を可能にするため,入力条件を固定解像度に標準化する位置認識訓練パラダイムを提案する。
第三に、条件生成タスクに適応したKVキャッシュ技術と組み合わせた因果注意機構を開発する。
- 参考スコア(独自算出の注目度): 15.879712910520801
- License:
- Abstract: Recent advancements in Unet-based diffusion models, such as ControlNet and IP-Adapter, have introduced effective spatial and subject control mechanisms. However, the DiT (Diffusion Transformer) architecture still struggles with efficient and flexible control. To tackle this issue, we propose EasyControl, a novel framework designed to unify condition-guided diffusion transformers with high efficiency and flexibility. Our framework is built on three key innovations. First, we introduce a lightweight Condition Injection LoRA Module. This module processes conditional signals in isolation, acting as a plug-and-play solution. It avoids modifying the base model weights, ensuring compatibility with customized models and enabling the flexible injection of diverse conditions. Notably, this module also supports harmonious and robust zero-shot multi-condition generalization, even when trained only on single-condition data. Second, we propose a Position-Aware Training Paradigm. This approach standardizes input conditions to fixed resolutions, allowing the generation of images with arbitrary aspect ratios and flexible resolutions. At the same time, it optimizes computational efficiency, making the framework more practical for real-world applications. Third, we develop a Causal Attention Mechanism combined with the KV Cache technique, adapted for conditional generation tasks. This innovation significantly reduces the latency of image synthesis, improving the overall efficiency of the framework. Through extensive experiments, we demonstrate that EasyControl achieves exceptional performance across various application scenarios. These innovations collectively make our framework highly efficient, flexible, and suitable for a wide range of tasks.
- Abstract(参考訳): ControlNetやIP-AdapterといったUnetベースの拡散モデルの最近の進歩は、効果的な空間的および主観的制御機構を導入している。
しかし、DiT (Diffusion Transformer) アーキテクチャは効率的で柔軟な制御に苦慮している。
この問題に対処するために,条件誘導拡散変換器を高効率かつ柔軟性で統一する新しいフレームワークであるEasyControlを提案する。
私たちのフレームワークは3つの重要なイノベーションの上に構築されています。
まず,軽量なコンディションインジェクション LoRA モジュールを提案する。
このモジュールは条件付き信号を分離して処理し、プラグアンドプレイのソリューションとして機能する。
ベースモデルの重みの変更を回避し、カスタマイズされたモデルとの互換性を確保し、多様な条件の柔軟な注入を可能にする。
特に、このモジュールは、単一条件のデータでのみ訓練された場合でも、調和的で堅牢なゼロショットの多重条件一般化もサポートしている。
次に,位置認識訓練パラダイムを提案する。
このアプローチは入力条件を固定解像度に標準化し、任意のアスペクト比と柔軟な解像度で画像を生成する。
同時に、計算効率を最適化し、現実世界のアプリケーションでフレームワークをより実用的なものにします。
第三に、条件生成タスクに適応したKVキャッシュ技術と組み合わせた因果注意機構を開発する。
この革新により、画像合成のレイテンシが大幅に減少し、フレームワーク全体の効率が向上する。
広範な実験を通じて、我々はEasyControlが様々なアプリケーションシナリオで例外的なパフォーマンスを達成することを実証した。
これらの革新によって、我々のフレームワークは、非常に効率的で、柔軟で、幅広いタスクに適しています。
関連論文リスト
- Optimizing Small Language Models for In-Vehicle Function-Calling [4.148443557388842]
本稿では,小型言語モデル(SLM)をエッジデバイスとして車両内の機能呼び出しエージェントとして展開するための総合的アプローチを提案する。
SLMを利用することで、車両制御機構を簡素化し、ユーザエクスペリエンスを向上させる。
論文 参考訳(メタデータ) (2025-01-04T17:32:56Z) - OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
OminiControlは、イメージ条件をトレーニング済みのDiffusion Transformer(DiT)モデルに統合するフレームワークである。
コアとなるOminiControlはパラメータ再利用機構を活用しており、強力なバックボーンとしてイメージ条件をエンコードすることができる。
OminiControlは、主観駆動生成や空間的に整合した条件を含む、幅広いイメージコンディショニングタスクを統一的に処理する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - AmoebaLLM: Constructing Any-Shape Large Language Models for Efficient and Instant Deployment [13.977849745488339]
AmoebaLLMは任意の形状の大規模言語モデルの即時導出を可能にする新しいフレームワークである。
AmoebaLLMは、様々なプラットフォームやアプリケーションに適した迅速なデプロイメントを著しく促進する。
論文 参考訳(メタデータ) (2024-11-15T22:02:28Z) - FlexEControl: Flexible and Efficient Multimodal Control for Text-to-Image Generation [99.4649330193233]
制御可能なテキスト画像拡散モデル(T2I)は、テキストプロンプトとエッジマップのような他のモダリティのセマンティック入力の両方に条件付き画像を生成する。
制御可能なT2I生成のためのフレキシブルで効率的なFlexEControlを提案する。
論文 参考訳(メタデータ) (2024-05-08T06:09:11Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - AQUILA: Communication Efficient Federated Learning with Adaptive
Quantization in Device Selection Strategy [27.443439653087662]
本稿では,これらの問題に対処するために考案された新しい適応型フレームワークであるAQUILA(Adaptive Quantization in Device selection Strategy)を紹介する。
AQUILAは、デバイス更新の品質と有用性を優先する高度なデバイス選択方法を統合する。
実験の結果,AQUILAは既存の手法に比べて通信コストを大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2023-08-01T03:41:47Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。
私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-06-14T06:28:04Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。