論文の概要: FreeControl: Efficient, Training-Free Structural Control via One-Step Attention Extraction
- arxiv url: http://arxiv.org/abs/2511.05219v1
- Date: Fri, 07 Nov 2025 13:17:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.768207
- Title: FreeControl: Efficient, Training-Free Structural Control via One-Step Attention Extraction
- Title(参考訳): FreeControl: ワンステップアテンション抽出による効率的な学習不要構造制御
- Authors: Jiang Lin, Xinyu Chen, Song Wu, Zhiqiu Zhang, Jizhi Zhang, Ye Wang, Qiang Tang, Qian Wang, Jian Yang, Zili Yi,
- Abstract要約: FreeControlは、拡散モデルにおける意味的構造制御のためのトレーニング不要のフレームワークである。
1つの最適な選択されたキータイムステップから1ステップの注意抽出を実行し、デノベーションを通じて再利用する。
LCDは注目品質をより細かく制御し、構造的アーティファクトを除去する。
- 参考スコア(独自算出の注目度): 26.92307756692061
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controlling the spatial and semantic structure of diffusion-generated images remains a challenge. Existing methods like ControlNet rely on handcrafted condition maps and retraining, limiting flexibility and generalization. Inversion-based approaches offer stronger alignment but incur high inference cost due to dual-path denoising. We present FreeControl, a training-free framework for semantic structural control in diffusion models. Unlike prior methods that extract attention across multiple timesteps, FreeControl performs one-step attention extraction from a single, optimally chosen key timestep and reuses it throughout denoising. This enables efficient structural guidance without inversion or retraining. To further improve quality and stability, we introduce Latent-Condition Decoupling (LCD): a principled separation of the key timestep and the noised latent used in attention extraction. LCD provides finer control over attention quality and eliminates structural artifacts. FreeControl also supports compositional control via reference images assembled from multiple sources - enabling intuitive scene layout design and stronger prompt alignment. FreeControl introduces a new paradigm for test-time control, enabling structurally and semantically aligned, visually coherent generation directly from raw images, with the flexibility for intuitive compositional design and compatibility with modern diffusion models at approximately 5 percent additional cost.
- Abstract(参考訳): 拡散生成画像の空間構造と意味構造を制御することは依然として課題である。
ControlNetのような既存のメソッドは、手作りの条件マップと再トレーニング、柔軟性の制限、一般化に依存している。
インバージョンベースのアプローチは、より強いアライメントを提供するが、デュアルパスの騒音による推論コストが高い。
拡散モデルにおける意味的構造制御のためのトレーニング不要なフレームワークであるFreeControlを提案する。
複数のタイムステップにまたがって注意を抽出する従来の方法とは異なり、FreeControlは1つの最適な選択されたキータイムステップから1ステップの注意を抽出し、デノイングを通じて再利用する。
これにより、インバージョンや再トレーニングなしに効率的な構造ガイダンスが可能になる。
品質と安定性をさらに向上するため,注意抽出に用いるキータイムステップとノイズの分離を行うLCD(Latent-Condition Decoupling)を導入する。
LCDは注目品質をより細かく制御し、構造的アーティファクトを除去する。
FreeControlはまた、複数のソースから集約された参照イメージによるコンポジションコントロールをサポートし、直感的なシーンレイアウト設計とより強力なプロンプトアライメントを可能にする。
FreeControlは新しいテスト時間制御パラダイムを導入し、構造的かつセマンティックに整合し、生画像から直接視覚的にコヒーレントな生成を可能にし、直感的な構成設計の柔軟性と、モダンな拡散モデルとの互換性を約5%のコストで実現した。
関連論文リスト
- ScaleWeaver: Weaving Efficient Controllable T2I Generation with Multi-Scale Reference Attention [86.93601565563954]
ScaleWeaverは、高度な視覚的自己回帰(VAR)モデルに基づいて、高忠実で制御可能な生成を実現するために設計されたフレームワークである。
提案された参照注意モジュールは image$rightarrow$condition から不要な注意を排除し、計算コストを削減している。
実験によると、ScaleWeaverは、拡散ベースの方法よりも優れた効率を実現しつつ、高品質な生成と正確な制御を提供する。
論文 参考訳(メタデータ) (2025-10-16T17:00:59Z) - PixelPonder: Dynamic Patch Adaptation for Enhanced Multi-Conditional Text-to-Image Generation [24.964136963713102]
単一制御構造下で複数の視覚条件を効果的に制御できる新しい統一制御フレームワークであるPixelPonderを提案する。
具体的には、サブリージョンレベルで空間的に関連する制御信号を動的に優先順位付けするパッチレベル適応条件選択機構を設計する。
大規模な実験では、PixelPonderがさまざまなベンチマークデータセットにまたがる従来のメソッドを上回ることが示されている。
論文 参考訳(メタデータ) (2025-03-09T16:27:02Z) - DC-ControlNet: Decoupling Inter- and Intra-Element Conditions in Image Generation with Diffusion Models [55.42794740244581]
マルチ条件画像生成のためのフレームワークであるDC(Decouple)-ControlNetを紹介する。
DC-ControlNetの背景にある基本的な考え方は、制御条件を分離し、グローバルな制御を階層的なシステムに変換することである。
要素間の相互作用については、Inter-Element Controllerを紹介します。
論文 参考訳(メタデータ) (2025-02-20T18:01:02Z) - FlexControl: Computation-Aware ControlNet with Differentiable Router for Text-to-Image Generation [10.675687253961595]
ControlNetは拡散ベースの生成モデルをガイドする強力な方法を提供する。
ほとんどの実装は、異なるタスクで予測不可能に変化するアプローチを制御するためのネットワークブロックを選択するためのアドホックに依存しています。
トレーニング中にすべての拡散ブロックをコピーし、トレーニング可能なゲーティング機構を使用するフレームワークであるFlexControlを提案する。
論文 参考訳(メタデータ) (2025-02-11T23:27:58Z) - ControlNeXt: Powerful and Efficient Control for Image and Video Generation [59.62289489036722]
制御可能画像と映像生成のための強力かつ効率的な制御NeXtを提案する。
まず、より単純で効率的なアーキテクチャを設計し、より重いブランチを最小限のコストで置き換えます。
トレーニングでは,学習可能なパラメータの最大90%を,代替案と比較して削減する。
論文 参考訳(メタデータ) (2024-08-12T11:41:18Z) - FlexEControl: Flexible and Efficient Multimodal Control for Text-to-Image Generation [99.4649330193233]
制御可能なテキスト画像拡散モデル(T2I)は、テキストプロンプトとエッジマップのような他のモダリティのセマンティック入力の両方に条件付き画像を生成する。
制御可能なT2I生成のためのフレキシブルで効率的なFlexEControlを提案する。
論文 参考訳(メタデータ) (2024-05-08T06:09:11Z) - FreeControl: Training-Free Spatial Control of Any Text-to-Image
Diffusion Model with Any Condition [41.92032568474062]
FreeControlは、制御可能なT2I生成のためのトレーニング不要のアプローチである。
複数の条件、アーキテクチャ、チェックポイントを同時にサポートする。
トレーニングベースのアプローチで、競争力のある合成品質を実現する。
論文 参考訳(メタデータ) (2023-12-12T18:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。