論文の概要: ScaleWeaver: Weaving Efficient Controllable T2I Generation with Multi-Scale Reference Attention
- arxiv url: http://arxiv.org/abs/2510.14882v1
- Date: Thu, 16 Oct 2025 17:00:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.960309
- Title: ScaleWeaver: Weaving Efficient Controllable T2I Generation with Multi-Scale Reference Attention
- Title(参考訳): ScaleWeaver: マルチスケール参照注意による効率的な制御可能なT2I生成
- Authors: Keli Liu, Zhendong Wang, Wengang Zhou, Shaodong Xu, Ruixiao Dong, Houqiang Li,
- Abstract要約: ScaleWeaverは、高度な視覚的自己回帰(VAR)モデルに基づいて、高忠実で制御可能な生成を実現するために設計されたフレームワークである。
提案された参照注意モジュールは image$rightarrow$condition から不要な注意を排除し、計算コストを削減している。
実験によると、ScaleWeaverは、拡散ベースの方法よりも優れた効率を実現しつつ、高品質な生成と正確な制御を提供する。
- 参考スコア(独自算出の注目度): 86.93601565563954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image generation with visual autoregressive~(VAR) models has recently achieved impressive advances in generation fidelity and inference efficiency. While control mechanisms have been explored for diffusion models, enabling precise and flexible control within VAR paradigm remains underexplored. To bridge this critical gap, in this paper, we introduce ScaleWeaver, a novel framework designed to achieve high-fidelity, controllable generation upon advanced VAR models through parameter-efficient fine-tuning. The core module in ScaleWeaver is the improved MMDiT block with the proposed Reference Attention module, which efficiently and effectively incorporates conditional information. Different from MM Attention, the proposed Reference Attention module discards the unnecessary attention from image$\rightarrow$condition, reducing computational cost while stabilizing control injection. Besides, it strategically emphasizes parameter reuse, leveraging the capability of the VAR backbone itself with a few introduced parameters to process control information, and equipping a zero-initialized linear projection to ensure that control signals are incorporated effectively without disrupting the generative capability of the base model. Extensive experiments show that ScaleWeaver delivers high-quality generation and precise control while attaining superior efficiency over diffusion-based methods, making ScaleWeaver a practical and effective solution for controllable text-to-image generation within the visual autoregressive paradigm. Code and models will be released.
- Abstract(参考訳): VARモデルによるテキスト・ツー・イメージ生成は、最近、生成の忠実度と推論効率において顕著な進歩を遂げている。
拡散モデルのために制御機構が検討されているが、VARパラダイム内での精密かつ柔軟な制御を実現するには、まだ未検討である。
本稿では,この重要なギャップを埋めるために,パラメータ効率の良い微調整により,高度なVARモデルに対して高忠実で制御可能な生成を実現するための新しいフレームワークであるScaleWeaverを紹介する。
ScaleWeaverのコアモジュールは、改善されたMMDiTブロックであり、提案されたReference Attentionモジュールは、条件情報を効率的に効果的に組み込む。
MMアテンションとは違って、提案した参照アテンションモジュールは image$\rightarrow$condition から不要な注意を排除し、制御インジェクションを安定化しながら計算コストを削減する。
さらに、パラメータ再利用を戦略的に強調し、VARバックボーン自体の機能をいくつかの導入パラメータで利用して制御情報を処理するとともに、ゼロ初期化線形射影を備え、制御信号がベースモデルの生成能力を損なうことなく効果的に組み込まれることを保証する。
大規模な実験によると、ScaleWeaverは、拡散ベースの手法よりも優れた効率を実現しつつ、高品質な生成と正確な制御を提供する。
コードとモデルはリリースされる。
関連論文リスト
- SCALAR: Scale-wise Controllable Visual Autoregressive Learning [15.775596699630633]
視覚自己回帰(VAR)に基づく制御可能な生成法であるSCALARを提案する。
予め訓練された画像エンコーダを用いて意味制御信号の符号化を抽出し,VARバックボーンの対応する層に注入する。
SCALAR上に構築したSCALAR-Uniは,複数の制御モダリティを共有潜在空間に整合させる統合拡張であり,単一のモデルで柔軟なマルチ条件ガイダンスをサポートする。
論文 参考訳(メタデータ) (2025-07-26T13:23:08Z) - CAR: Controllable Autoregressive Modeling for Visual Generation [100.33455832783416]
Controllable AutoRegressive Modeling (CAR)は、条件制御をマルチスケールの潜在変数モデリングに統合する新しいプラグイン・アンド・プレイフレームワークである。
CARは、制御表現を徐々に洗練し、キャプチャし、前訓練されたモデルの各自己回帰ステップに注入して生成プロセスを導く。
提案手法は,様々な条件にまたがって優れた制御性を示し,従来の手法に比べて画質の向上を実現している。
論文 参考訳(メタデータ) (2024-10-07T00:55:42Z) - ControlVAR: Exploring Controllable Visual Autoregressive Modeling [48.66209303617063]
拡散モデル(DM)の出現により、条件付き視覚発生は顕著に進展した。
高価な計算コスト、高い推論遅延、大規模言語モデル(LLM)との統合の難しさといった課題は、DMに代わる方法を模索する必要がある。
本稿では,フレキシブルかつ効率的な条件生成のための視覚自己回帰モデリングにおける画素レベル制御を探求する新しいフレームワークであるControlmoreを紹介する。
論文 参考訳(メタデータ) (2024-06-14T06:35:33Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。