論文の概要: Condition Weaving Meets Expert Modulation: Towards Universal and Controllable Image Generation
- arxiv url: http://arxiv.org/abs/2508.17364v1
- Date: Sun, 24 Aug 2025 13:47:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.488848
- Title: Condition Weaving Meets Expert Modulation: Towards Universal and Controllable Image Generation
- Title(参考訳): コンディションウィービングとエキスパート変調:ユニバーサルで制御可能な画像生成を目指して
- Authors: Guoqing Zhang, Xingtong Ge, Lu Shi, Xin Zhang, Muqing Xue, Wanru Xu, Yigang Cen,
- Abstract要約: 多様な条件入力をサポートするUnified Image-to-image Generation (UniGen) フレームワークを提案する。
Condition Modulated Expert (CoMoE)モジュールは、視覚表現と条件モデリングのために意味的に類似したパッチ機能を集約する。
また,背骨からのグローバルテキストレベル制御と条件分岐からのきめ細かい制御を効果的に相互作用できる動的ヘビ様接続機構WeaveNetを提案する。
- 参考スコア(独自算出の注目度): 15.746410052754749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The image-to-image generation task aims to produce controllable images by leveraging conditional inputs and prompt instructions. However, existing methods often train separate control branches for each type of condition, leading to redundant model structures and inefficient use of computational resources. To address this, we propose a Unified image-to-image Generation (UniGen) framework that supports diverse conditional inputs while enhancing generation efficiency and expressiveness. Specifically, to tackle the widely existing parameter redundancy and computational inefficiency in controllable conditional generation architectures, we propose the Condition Modulated Expert (CoMoE) module. This module aggregates semantically similar patch features and assigns them to dedicated expert modules for visual representation and conditional modeling. By enabling independent modeling of foreground features under different conditions, CoMoE effectively mitigates feature entanglement and redundant computation in multi-condition scenarios. Furthermore, to bridge the information gap between the backbone and control branches, we propose WeaveNet, a dynamic, snake-like connection mechanism that enables effective interaction between global text-level control from the backbone and fine-grained control from conditional branches. Extensive experiments on the Subjects-200K and MultiGen-20M datasets across various conditional image generation tasks demonstrate that our method consistently achieves state-of-the-art performance, validating its advantages in both versatility and effectiveness. The code has been uploaded to https://github.com/gavin-gqzhang/UniGen.
- Abstract(参考訳): 画像から画像へ生成するタスクは、条件付き入力を活用して制御可能な画像を生成し、指示を促すことを目的としている。
しかし、既存の手法では、各種類の条件に対して別々の制御分岐を訓練することが多く、冗長なモデル構造と計算資源の非効率な利用につながる。
そこで本稿では,生成効率と表現性を高めつつ,多様な条件入力をサポートするUnified Image-to-image Generation(UniGen)フレームワークを提案する。
具体的には、制御可能な条件生成アーキテクチャにおけるパラメータ冗長性と計算不効率性に対処するため、条件変調エキスパート(CoMoE)モジュールを提案する。
このモジュールは意味的に類似したパッチ機能を集約し、視覚表現と条件モデリングのために専門的なモジュールに割り当てる。
異なる条件下でのフォアグラウンド機能の独立したモデリングを可能にすることで、CoMoEはマルチ条件シナリオにおける機能の絡み合いと冗長な計算を効果的に軽減する。
さらに、バックボーンとコントロールブランチ間の情報ギャップを埋めるため、バックボーンからのグローバルテキストレベル制御と条件分岐からのきめ細かい制御との効果的な相互作用を可能にする、ダイナミックなヘビのような接続機構であるWeaveNetを提案する。
各種条件付き画像生成タスクにおけるSubjects-200KとMultiGen-20Mデータセットの大規模な実験により,本手法が常に最先端の性能を達成し,汎用性と有効性の両方においてその利点を実証した。
コードはhttps://github.com/gavin-gqzhang/UniGen.comにアップロードされた。
関連論文リスト
- Context-Aware Autoregressive Models for Multi-Conditional Image Generation [24.967166342680112]
ContextARは、多条件画像生成のための柔軟で効果的なフレームワークである。
様々な条件をトークンシーケンスに直接埋め込み、モダリティ固有の意味論を保存する。
拡散型多条件制御よりも競争力が高いことが,既存の自己回帰ベースラインに近づくことを示す。
論文 参考訳(メタデータ) (2025-05-18T07:27:02Z) - DynamicControl: Adaptive Condition Selection for Improved Text-to-Image Generation [63.63429658282696]
多様な制御信号の動的組み合わせをサポートするDynamicControlを提案する。
様々な条件下での制御性,生成品質,構成性の観点から,DynamicControlは既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-04T11:54:57Z) - OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
我々は,Diffusion Transformer(DiT)アーキテクチャに画像条件をどのように統合するかを再考する,新しいアプローチであるOminiControlを提案する。
OminiControlは3つの重要なイノベーションを通じて、これらの制限に対処する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - ControlVAR: Exploring Controllable Visual Autoregressive Modeling [48.66209303617063]
拡散モデル(DM)の出現により、条件付き視覚発生は顕著に進展した。
高価な計算コスト、高い推論遅延、大規模言語モデル(LLM)との統合の難しさといった課題は、DMに代わる方法を模索する必要がある。
本稿では,フレキシブルかつ効率的な条件生成のための視覚自己回帰モデリングにおける画素レベル制御を探求する新しいフレームワークであるControlmoreを紹介する。
論文 参考訳(メタデータ) (2024-06-14T06:35:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。