論文の概要: DivControl: Knowledge Diversion for Controllable Image Generation
- arxiv url: http://arxiv.org/abs/2507.23620v1
- Date: Thu, 31 Jul 2025 15:00:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:10.011443
- Title: DivControl: Knowledge Diversion for Controllable Image Generation
- Title(参考訳): DivControl: 制御可能な画像生成のための知識変換
- Authors: Yucheng Xie, Fu Feng, Ruixiao Shi, Jing Wang, Yong Rui, Xin Geng,
- Abstract要約: DivControlは、統合制御可能な生成のための分解可能な事前トレーニングフレームワークである。
最先端の制御性を36.4$timesのトレーニングコストで実現している。
また、目に見えない条件で強力なゼロショットと少数ショットのパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 38.166949036830886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have advanced from text-to-image (T2I) to image-to-image (I2I) generation by incorporating structured inputs such as depth maps, enabling fine-grained spatial control. However, existing methods either train separate models for each condition or rely on unified architectures with entangled representations, resulting in poor generalization and high adaptation costs for novel conditions. To this end, we propose DivControl, a decomposable pretraining framework for unified controllable generation and efficient adaptation. DivControl factorizes ControlNet via SVD into basic components-pairs of singular vectors-which are disentangled into condition-agnostic learngenes and condition-specific tailors through knowledge diversion during multi-condition training. Knowledge diversion is implemented via a dynamic gate that performs soft routing over tailors based on the semantics of condition instructions, enabling zero-shot generalization and parameter-efficient adaptation to novel conditions. To further improve condition fidelity and training efficiency, we introduce a representation alignment loss that aligns condition embeddings with early diffusion features. Extensive experiments demonstrate that DivControl achieves state-of-the-art controllability with 36.4$\times$ less training cost, while simultaneously improving average performance on basic conditions. It also delivers strong zero-shot and few-shot performance on unseen conditions, demonstrating superior scalability, modularity, and transferability.
- Abstract(参考訳): 拡散モデルは、深度マップなどの構造化入力を組み込むことで、テキスト・ツー・イメージ(T2I)から画像・ツー・イメージ(I2I)生成へと進化し、空間制御のきめ細かい制御が可能になった。
しかし、既存の手法では各条件ごとに異なるモデルを訓練するか、あるいは絡み合った表現を持つ統一アーキテクチャに依存しているため、新しい条件に対する一般化の貧弱さと高い適応コストが生じる。
そこで我々はDivControlを提案する。DivControlは統合制御可能生成と効率的な適応のための分解可能な事前学習フレームワークである。
DivControlは、SVDを介してControlNetを特異ベクトルの基本コンポーネントペアに分解する。
知識ディバージョンは、条件命令のセマンティクスに基づいて、テーラー上のソフトルーティングを実行するダイナミックゲートを介して実装され、ゼロショットの一般化と新しい条件へのパラメータ効率の適応を可能にする。
条件の忠実度とトレーニング効率をさらに向上するため,初期拡散特性と条件の埋め込みを整合させるアライメントアライメントロスを導入する。
大規模な実験により、DivControlは36.4$\times$のトレーニングコストで最先端の制御性を達成し、同時に基本条件における平均性能を改善した。
また、目に見えない条件で強力なゼロショットと少数ショットのパフォーマンスを提供し、優れたスケーラビリティ、モジュール性、転送性を示す。
関連論文リスト
- A Practical Investigation of Spatially-Controlled Image Generation with Transformers [16.682348277650817]
我々は,空間的に制御された生成システムを開発したいと考える実践者に対して,世代パラダイムをまたいだ明確なテイクアウトを提供することを目指している。
我々は、拡散ベース/フローベースおよび自己回帰(AR)モデル間で、ImageNet上で制御実験を行う。
論文 参考訳(メタデータ) (2025-07-21T15:33:49Z) - RichControl: Structure- and Appearance-Rich Training-Free Spatial Control for Text-to-Image Generation [16.038598998902767]
テキスト・ツー・イメージ(T2I)拡散モデルでは,テキスト・プロンプトから高品質な画像を生成することに成功した。
本稿では,デノナイジングプロセスからインジェクションタイムステップを分離するフレキシブルな機能インジェクションフレームワークを提案する。
提案手法は,多種多様なゼロショット条件付きシナリオにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-07-03T16:56:15Z) - EasyControl: Adding Efficient and Flexible Control for Diffusion Transformer [15.879712910520801]
条件誘導拡散変換器を高効率かつ柔軟性で統一する新しいフレームワークであるEasyControlを提案する。
まず、軽量なCondition Injection LoRA Moduleを紹介します。
第2に,任意のアスペクト比とフレキシブルな解像度を持つ画像の生成を可能にするため,入力条件を固定解像度に標準化する位置認識訓練パラダイムを提案する。
第三に、条件生成タスクに適応したKVキャッシュ技術と組み合わせた因果注意機構を開発する。
論文 参考訳(メタデータ) (2025-03-10T08:07:17Z) - DynamicControl: Adaptive Condition Selection for Improved Text-to-Image Generation [63.63429658282696]
多様な制御信号の動的組み合わせをサポートするDynamicControlを提案する。
様々な条件下での制御性,生成品質,構成性の観点から,DynamicControlは既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-04T11:54:57Z) - OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
我々は,Diffusion Transformer(DiT)アーキテクチャに画像条件をどのように統合するかを再考する,新しいアプローチであるOminiControlを提案する。
OminiControlは3つの重要なイノベーションを通じて、これらの制限に対処する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - EasyControl: Transfer ControlNet to Video Diffusion for Controllable Generation and Interpolation [73.80275802696815]
本稿では、ビデオ生成のためのEasyControlというユニバーサルフレームワークを提案する。
提案手法により,ユーザーは単一の条件マップで映像生成を制御できる。
その結果,UCF101とMSR-VTTのFVDおよびISが向上した。
論文 参考訳(メタデータ) (2024-08-23T11:48:29Z) - ControlVAR: Exploring Controllable Visual Autoregressive Modeling [48.66209303617063]
拡散モデル(DM)の出現により、条件付き視覚発生は顕著に進展した。
高価な計算コスト、高い推論遅延、大規模言語モデル(LLM)との統合の難しさといった課題は、DMに代わる方法を模索する必要がある。
本稿では,フレキシブルかつ効率的な条件生成のための視覚自己回帰モデリングにおける画素レベル制御を探求する新しいフレームワークであるControlmoreを紹介する。
論文 参考訳(メタデータ) (2024-06-14T06:35:33Z) - Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control [73.6361029556484]
身体的なAIエージェントは、視覚的および言語入力を介して、物理的な世界を詳細に理解する必要がある。
テキストプロンプトから画像を生成するために明示的に最適化された事前学習されたテキスト画像拡散モデルについて検討する。
安定度制御表現により,OVMM上での最先端性能を示す学習ポリシーが実現可能であることを示す。
論文 参考訳(メタデータ) (2024-05-09T15:39:54Z) - ECNet: Effective Controllable Text-to-Image Diffusion Models [31.21525123716149]
本稿では,条件付きテキスト・ツー・イメージモデルに対する2つの革新的なソリューションを提案する。
まず,テキスト入力を正確なアノテーション情報で符号化することで,条件の詳細性を高める空間ガイダンス(SGI)を提案する。
第二に、条件付き監督の制限を克服するため、拡散整合損失を導入する。
これにより、各ステップにおける潜時符号と入力信号との一貫性が促進され、出力の堅牢性と精度が向上する。
論文 参考訳(メタデータ) (2024-03-27T10:09:38Z) - CCM: Adding Conditional Controls to Text-to-Image Consistency Models [89.75377958996305]
本稿では,Consistency Models に ControlNet のような条件制御を追加するための代替戦略を検討する。
軽量アダプタは、一貫性トレーニングを通じて、複数の条件下で共同で最適化することができる。
これらの3つの解は, エッジ, 奥行き, 人間のポーズ, 低解像度画像, マスキング画像など, 様々な条件制御にまたがる。
論文 参考訳(メタデータ) (2023-12-12T04:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。