論文の概要: RichControl: Structure- and Appearance-Rich Training-Free Spatial Control for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2507.02792v1
- Date: Thu, 03 Jul 2025 16:56:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.676649
- Title: RichControl: Structure- and Appearance-Rich Training-Free Spatial Control for Text-to-Image Generation
- Title(参考訳): RichControl:テキスト・画像生成のための構造・外観訓練自由空間制御
- Authors: Liheng Zhang, Lexi Pang, Hang Ye, Xiaoxuan Ma, Yizhou Wang,
- Abstract要約: テキスト・ツー・イメージ(T2I)拡散モデルでは,テキスト・プロンプトから高品質な画像を生成することに成功した。
本稿では,デノナイジングプロセスからインジェクションタイムステップを分離するフレキシブルな機能インジェクションフレームワークを提案する。
提案手法は,多種多様なゼロショット条件付きシナリオにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 16.038598998902767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) diffusion models have shown remarkable success in generating high-quality images from text prompts. Recent efforts extend these models to incorporate conditional images (e.g., depth or pose maps) for fine-grained spatial control. Among them, feature injection methods have emerged as a training-free alternative to traditional fine-tuning approaches. However, they often suffer from structural misalignment, condition leakage, and visual artifacts, especially when the condition image diverges significantly from natural RGB distributions. By revisiting existing methods, we identify a core limitation: the synchronous injection of condition features fails to account for the trade-off between domain alignment and structural preservation during denoising. Inspired by this observation, we propose a flexible feature injection framework that decouples the injection timestep from the denoising process. At its core is a structure-rich injection module, which enables the model to better adapt to the evolving interplay between alignment and structure preservation throughout the diffusion steps, resulting in more faithful structural generation. In addition, we introduce appearance-rich prompting and a restart refinement strategy to further enhance appearance control and visual quality. Together, these designs enable training-free generation that is both structure-rich and appearance-rich. Extensive experiments show that our approach achieves state-of-the-art performance across diverse zero-shot conditioning scenarios.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルでは,テキスト・プロンプトから高品質な画像を生成することに成功した。
近年の取り組みは、これらのモデルを拡張して、きめ細かい空間制御のために条件付き画像(例えば、深さやポーズマップ)を組み込むようにしている。
その中には、従来の微調整手法に代わるトレーニング不要の手法として機能注入法が登場している。
しかし、特に条件画像が自然のRGB分布と大きく異なる場合、構造的ミスアライメント、条件リーク、視覚的アーティファクトに悩まされることが多い。
条件特徴の同期注入は、デノナイズ中のドメインアライメントと構造保存の間のトレードオフを考慮できない。
この観察にインスパイアされたフレキシブル・フィーチャー・インジェクション・フレームワークの提案により,インジェクションの段階をデノナイジング・プロセスから切り離すことができる。
中心となる構造豊富なインジェクションモジュールは、モデルが拡散ステップ全体を通してアライメントと構造保存の間の進化する相互作用に適応し、より忠実な構造生成をもたらす。
さらに、外観制御と視覚的品質をさらに向上させるために、外観豊かなプロンプトと再活性化戦略を導入する。
これらの設計は、構造豊かで外観豊かなトレーニング不要な生成を可能にする。
広汎な実験により,多種多様なゼロショット条件付きシナリオにおける最先端性能が得られた。
関連論文リスト
- Restoring Real-World Images with an Internal Detail Enhancement Diffusion Model [9.520471615470267]
古い写真や低解像度画像などの現実世界の劣化画像の復元は、大きな課題となる。
最近のデータ駆動型アプローチは、高忠実度復元と、色付けに対するオブジェクトレベル制御の達成に苦慮している。
実世界の劣化画像の高忠実性復元のための内部詳細保存拡散モデルを提案する。
論文 参考訳(メタデータ) (2025-05-24T12:32:53Z) - From Missing Pieces to Masterpieces: Image Completion with Context-Adaptive Diffusion [98.31811240195324]
ConFillは、各拡散ステップで生成された画像とオリジナル画像の差を小さくする新しいフレームワークである。
現行の手法より優れており、画像補完の新しいベンチマークが設定されている。
論文 参考訳(メタデータ) (2025-04-19T13:40:46Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided Optimization [59.412236435627094]
TALEは、テキストから画像への拡散モデルの生成機能を利用する、トレーニング不要のフレームワークである。
TALEにはAdaptive Latent ManipulationとEnergy-Guided Latent Optimizationという2つのメカニズムが備わっている。
本実験は,TALEが従来のベースラインを超え,画像誘導合成における最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-07T08:52:21Z) - Powerful and Flexible: Personalized Text-to-Image Generation via Reinforcement Learning [40.06403155373455]
個人化されたテキスト・画像生成のための新しい強化学習フレームワークを提案する。
提案手法は、テキストアライメントを維持しながら、視覚的忠実度に大きな差で既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T08:11:53Z) - TCIG: Two-Stage Controlled Image Generation with Quality Enhancement
through Diffusion [0.0]
画像生成における制御性と高品質を両立させる2段階の手法を提案する。
制御性と高品質を分離することにより,優れた結果が得られる。
論文 参考訳(メタデータ) (2024-03-02T13:59:02Z) - DreamDrone: Text-to-Image Diffusion Models are Zero-shot Perpetual View Generators [56.994967294931286]
テキストプロンプトからフライスルーシーンを生成する新しいゼロショット・トレーニングフリーパイプラインであるDreamDroneを紹介する。
我々は、高品質な画像生成と非有界な一般化能力のために、事前訓練されたテキスト・画像拡散モデルの中間潜時符号を明示的に修正することを提唱する。
論文 参考訳(メタデータ) (2023-12-14T08:42:26Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Controlling Text-to-Image Diffusion by Orthogonal Finetuning [74.21549380288631]
そこで本研究では,テキストから画像への拡散モデルを下流タスクに適用するための原理的な微調整手法であるorthogonal Finetuning(OFT)を提案する。
既存の方法とは異なり、OFTは単位超球上の対のニューロン関係を特徴付ける超球面エネルギーを確実に保存することができる。
我々のOFTフレームワークは、生成品質と収束速度において既存の手法よりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-06-12T17:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。