論文の概要: NanoControl: A Lightweight Framework for Precise and Efficient Control in Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2508.10424v1
- Date: Thu, 14 Aug 2025 07:54:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.219878
- Title: NanoControl: A Lightweight Framework for Precise and Efficient Control in Diffusion Transformer
- Title(参考訳): NanoControl:拡散変圧器の高精度かつ効率的な制御のための軽量フレームワーク
- Authors: Shanyuan Liu, Jian Zhu, Junda Lu, Yue Gong, Liuzhuozheng Li, Bo Cheng, Yuhang Ma, Liebucha Wu, Xiaoyu Wu, Dawei Leng, Yuhui Yin,
- Abstract要約: NanoControlは、制御可能なテキスト・ツー・イメージ生成のためのバックボーンネットワークとしてFluxを使用している。
我々のモデルは、最先端の制御可能なテキスト・ツー・イメージ生成性能を実現する。
パラメータ数は0.024%増加し、GFLOPは0.029%増加し、高効率な制御可能な生成を可能にする。
- 参考スコア(独自算出の注目度): 14.644014499085943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers (DiTs) have demonstrated exceptional capabilities in text-to-image synthesis. However, in the domain of controllable text-to-image generation using DiTs, most existing methods still rely on the ControlNet paradigm originally designed for UNet-based diffusion models. This paradigm introduces significant parameter overhead and increased computational costs. To address these challenges, we propose the Nano Control Diffusion Transformer (NanoControl), which employs Flux as the backbone network. Our model achieves state-of-the-art controllable text-to-image generation performance while incurring only a 0.024\% increase in parameter count and a 0.029\% increase in GFLOPs, thus enabling highly efficient controllable generation. Specifically, rather than duplicating the DiT backbone for control, we design a LoRA-style (low-rank adaptation) control module that directly learns control signals from raw conditioning inputs. Furthermore, we introduce a KV-Context Augmentation mechanism that integrates condition-specific key-value information into the backbone in a simple yet highly effective manner, facilitating deep fusion of conditional features. Extensive benchmark experiments demonstrate that NanoControl significantly reduces computational overhead compared to conventional control approaches, while maintaining superior generation quality and achieving improved controllability.
- Abstract(参考訳): 拡散変換器 (DiT) はテキスト・画像合成において例外的な機能を示した。
しかし、DiTを用いた制御可能なテキスト・画像生成の分野では、既存のほとんどのメソッドは、元来UNetベースの拡散モデルのために設計されたコントロールネットパラダイムに依存している。
このパラダイムは、重要なパラメータのオーバーヘッドと計算コストの増加をもたらす。
これらの課題に対処するために,Fluxをバックボーンネットワークとして利用するNano Control Diffusion Transformer (NanoControl)を提案する。
本モデルでは,パラメータ数0.024\%の増加とGFLOPの0.029\%増加に留まらず,最先端の制御可能なテキスト・画像生成性能を実現し,高効率な制御可能生成を実現する。
具体的には、制御のためにDiTバックボーンを複製するのではなく、生条件入力から直接制御信号を学習するLoRAスタイルの制御モジュールを設計する。
さらに,条件固有のキー値情報をバックボーンに組み込むKV-Context Augmentation機構を導入し,条件特徴の深い融合を容易にする。
大規模なベンチマーク実験により、NanoControlは従来の制御手法に比べて計算オーバーヘッドを著しく低減し、優れた生成品質を維持し、制御性の向上を実現している。
関連論文リスト
- ScaleWeaver: Weaving Efficient Controllable T2I Generation with Multi-Scale Reference Attention [86.93601565563954]
ScaleWeaverは、高度な視覚的自己回帰(VAR)モデルに基づいて、高忠実で制御可能な生成を実現するために設計されたフレームワークである。
提案された参照注意モジュールは image$rightarrow$condition から不要な注意を排除し、計算コストを削減している。
実験によると、ScaleWeaverは、拡散ベースの方法よりも優れた効率を実現しつつ、高品質な生成と正確な制御を提供する。
論文 参考訳(メタデータ) (2025-10-16T17:00:59Z) - OminiControl2: Efficient Conditioning for Diffusion Transformers [68.3243031301164]
我々は,効率的な画像条件生成を実現する効率的なフレームワークであるOminiControl2を提案する。
OminiControl2は、(1)生成時に最も意味のあるトークンだけを保存することによって条件入力を合理化する動的圧縮戦略、(2)条件トークンの特徴を1回だけ計算し、段階的に再利用する条件的特徴再利用機構である。
論文 参考訳(メタデータ) (2025-03-11T10:50:14Z) - RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers [11.003945673813488]
Diffusion Transformerは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成において重要な役割を果たす。
本稿では,Relevance-Guided Efficient Controllable GenerationフレームワークRelaCtrlを提案する。
本手法は PixArt-delta と比較して, パラメータと計算複雑性の 15% しか得られず, 優れた性能を実現する。
論文 参考訳(メタデータ) (2025-02-20T09:10:05Z) - OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
我々は,Diffusion Transformer(DiT)アーキテクチャに画像条件をどのように統合するかを再考する,新しいアプローチであるOminiControlを提案する。
OminiControlは3つの重要なイノベーションを通じて、これらの制限に対処する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - RepControlNet: ControlNet Reparameterization [0.562479170374811]
RepControlNetは計算量を増やすことなく拡散モデルの制御可能な生成を実現する。
SD1.5とSDXLの両方で多数の実験を行い,提案したRepControlNetの有効性と有効性を示した。
論文 参考訳(メタデータ) (2024-08-17T16:21:51Z) - FlexEControl: Flexible and Efficient Multimodal Control for Text-to-Image Generation [99.4649330193233]
制御可能なテキスト画像拡散モデル(T2I)は、テキストプロンプトとエッジマップのような他のモダリティのセマンティック入力の両方に条件付き画像を生成する。
制御可能なT2I生成のためのフレキシブルで効率的なFlexEControlを提案する。
論文 参考訳(メタデータ) (2024-05-08T06:09:11Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - UniControl: A Unified Diffusion Model for Controllable Visual Generation
In the Wild [166.25327094261038]
制御可能なコンディション・トゥ・イメージ(C2I)タスクのための新しい生成基盤モデルUniControlを紹介する。
UniControlは、任意の言語プロンプトを許容しながら、特定のフレームワーク内で幅広いC2Iタスクを統合する。
9つのユニークなC2Iタスクで訓練されたUniControlは、印象的なゼロショット生成能力を誇示している。
論文 参考訳(メタデータ) (2023-05-18T17:41:34Z) - Optimal PID and Antiwindup Control Design as a Reinforcement Learning
Problem [3.131740922192114]
DRL制御法の解釈可能性に着目した。
特に、線形固定構造コントローラをアクター・クリティカル・フレームワークに埋め込まれた浅層ニューラルネットワークとみなす。
論文 参考訳(メタデータ) (2020-05-10T01:05:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。