論文の概要: DivControl: Knowledge Diversion for Controllable Image Generation
- arxiv url: http://arxiv.org/abs/2507.23620v1
- Date: Thu, 31 Jul 2025 15:00:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:10.011443
- Title: DivControl: Knowledge Diversion for Controllable Image Generation
- Title(参考訳): DivControl: 制御可能な画像生成のための知識変換
- Authors: Yucheng Xie, Fu Feng, Ruixiao Shi, Jing Wang, Yong Rui, Xin Geng,
- Abstract要約: DivControlは、統合制御可能な生成のための分解可能な事前トレーニングフレームワークである。
最先端の制御性を36.4$timesのトレーニングコストで実現している。
また、目に見えない条件で強力なゼロショットと少数ショットのパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 38.166949036830886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have advanced from text-to-image (T2I) to image-to-image (I2I) generation by incorporating structured inputs such as depth maps, enabling fine-grained spatial control. However, existing methods either train separate models for each condition or rely on unified architectures with entangled representations, resulting in poor generalization and high adaptation costs for novel conditions. To this end, we propose DivControl, a decomposable pretraining framework for unified controllable generation and efficient adaptation. DivControl factorizes ControlNet via SVD into basic components-pairs of singular vectors-which are disentangled into condition-agnostic learngenes and condition-specific tailors through knowledge diversion during multi-condition training. Knowledge diversion is implemented via a dynamic gate that performs soft routing over tailors based on the semantics of condition instructions, enabling zero-shot generalization and parameter-efficient adaptation to novel conditions. To further improve condition fidelity and training efficiency, we introduce a representation alignment loss that aligns condition embeddings with early diffusion features. Extensive experiments demonstrate that DivControl achieves state-of-the-art controllability with 36.4$\times$ less training cost, while simultaneously improving average performance on basic conditions. It also delivers strong zero-shot and few-shot performance on unseen conditions, demonstrating superior scalability, modularity, and transferability.
- Abstract(参考訳): 拡散モデルは、深度マップなどの構造化入力を組み込むことで、テキスト・ツー・イメージ(T2I)から画像・ツー・イメージ(I2I)生成へと進化し、空間制御のきめ細かい制御が可能になった。
しかし、既存の手法では各条件ごとに異なるモデルを訓練するか、あるいは絡み合った表現を持つ統一アーキテクチャに依存しているため、新しい条件に対する一般化の貧弱さと高い適応コストが生じる。
そこで我々はDivControlを提案する。DivControlは統合制御可能生成と効率的な適応のための分解可能な事前学習フレームワークである。
DivControlは、SVDを介してControlNetを特異ベクトルの基本コンポーネントペアに分解する。
知識ディバージョンは、条件命令のセマンティクスに基づいて、テーラー上のソフトルーティングを実行するダイナミックゲートを介して実装され、ゼロショットの一般化と新しい条件へのパラメータ効率の適応を可能にする。
条件の忠実度とトレーニング効率をさらに向上するため,初期拡散特性と条件の埋め込みを整合させるアライメントアライメントロスを導入する。
大規模な実験により、DivControlは36.4$\times$のトレーニングコストで最先端の制御性を達成し、同時に基本条件における平均性能を改善した。
また、目に見えない条件で強力なゼロショットと少数ショットのパフォーマンスを提供し、優れたスケーラビリティ、モジュール性、転送性を示す。
関連論文リスト
- RichControl: Structure- and Appearance-Rich Training-Free Spatial Control for Text-to-Image Generation [16.038598998902767]
テキスト・ツー・イメージ(T2I)拡散モデルでは,テキスト・プロンプトから高品質な画像を生成することに成功した。
本稿では,デノナイジングプロセスからインジェクションタイムステップを分離するフレキシブルな機能インジェクションフレームワークを提案する。
提案手法は,多種多様なゼロショット条件付きシナリオにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-07-03T16:56:15Z) - OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
我々は,Diffusion Transformer(DiT)アーキテクチャに画像条件をどのように統合するかを再考する,新しいアプローチであるOminiControlを提案する。
OminiControlは3つの重要なイノベーションを通じて、これらの制限に対処する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - ControlVAR: Exploring Controllable Visual Autoregressive Modeling [48.66209303617063]
拡散モデル(DM)の出現により、条件付き視覚発生は顕著に進展した。
高価な計算コスト、高い推論遅延、大規模言語モデル(LLM)との統合の難しさといった課題は、DMに代わる方法を模索する必要がある。
本稿では,フレキシブルかつ効率的な条件生成のための視覚自己回帰モデリングにおける画素レベル制御を探求する新しいフレームワークであるControlmoreを紹介する。
論文 参考訳(メタデータ) (2024-06-14T06:35:33Z) - ECNet: Effective Controllable Text-to-Image Diffusion Models [31.21525123716149]
本稿では,条件付きテキスト・ツー・イメージモデルに対する2つの革新的なソリューションを提案する。
まず,テキスト入力を正確なアノテーション情報で符号化することで,条件の詳細性を高める空間ガイダンス(SGI)を提案する。
第二に、条件付き監督の制限を克服するため、拡散整合損失を導入する。
これにより、各ステップにおける潜時符号と入力信号との一貫性が促進され、出力の堅牢性と精度が向上する。
論文 参考訳(メタデータ) (2024-03-27T10:09:38Z) - CCM: Adding Conditional Controls to Text-to-Image Consistency Models [89.75377958996305]
本稿では,Consistency Models に ControlNet のような条件制御を追加するための代替戦略を検討する。
軽量アダプタは、一貫性トレーニングを通じて、複数の条件下で共同で最適化することができる。
これらの3つの解は, エッジ, 奥行き, 人間のポーズ, 低解像度画像, マスキング画像など, 様々な条件制御にまたがる。
論文 参考訳(メタデータ) (2023-12-12T04:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。