論文の概要: AlignedGen: Aligning Style Across Generated Images
- arxiv url: http://arxiv.org/abs/2509.17088v1
- Date: Sun, 21 Sep 2025 14:07:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.10998
- Title: AlignedGen: Aligning Style Across Generated Images
- Title(参考訳): AlignedGen: 生成した画像間のスタイルの調整
- Authors: Jiexuan Zhang, Yiheng Du, Qian Wang, Weiqi Li, Yu Gu, Jian Zhang,
- Abstract要約: 拡散モデルは、同じスタイルプロンプトで条件付けられた画像間のスタイル一貫性を維持するのに苦労する。
トレーニング不要のフレームワークであるAlignedGenを導入し、DiTモデルによって生成された画像間のスタイル整合性を向上させる。
- 参考スコア(独自算出の注目度): 17.61173470089817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their generative power, diffusion models struggle to maintain style consistency across images conditioned on the same style prompt, hindering their practical deployment in creative workflows. While several training-free methods attempt to solve this, they are constrained to the U-Net architecture, which not only leads to low-quality results and artifacts like object repetition but also renders them incompatible with superior Diffusion Transformer (DiT). To address these issues, we introduce AlignedGen, a novel training-free framework that enhances style consistency across images generated by DiT models. Our work first reveals a critical insight: naive attention sharing fails in DiT due to conflicting positional signals from improper position embeddings. We introduce Shifted Position Embedding (ShiftPE), an effective solution that resolves this conflict by allocating a non-overlapping set of positional indices to each image. Building on this foundation, we develop Advanced Attention Sharing (AAS), a suite of three techniques meticulously designed to fully unleash the potential of attention sharing within the DiT. Furthermore, to broaden the applicability of our method, we present an efficient query, key, and value feature extraction algorithm, enabling our method to seamlessly incorporate external images as style references. Extensive experimental results validate that our method effectively enhances style consistency across generated images while maintaining precise text-to-image alignment.
- Abstract(参考訳): その生成力にもかかわらず、拡散モデルは、同じスタイルのプロンプトで条件付けられた画像間でスタイルの一貫性を維持するのに苦労し、創造的なワークフローへの実践的な展開を妨げる。
いくつかのトレーニング不要な手法がこれを解決しようとするが、それらはU-Netアーキテクチャに制約されるため、低品質な結果やオブジェクトの繰り返しのようなアーティファクトにつながるだけでなく、優れたDiffusion Transformer(DiT)と互換性がない。
これらの問題に対処するために、我々は、DiTモデルによって生成された画像間のスタイル整合性を高める新しいトレーニングフリーフレームワークであるAlignedGenを紹介した。
我々の研究はまず、不適切な位置埋め込みによる位置信号の矛盾により、DiTの注意共有が失敗する、という重要な洞察を明らかにした。
各画像に重複しない位置指標の集合を割り当てることで、この競合を解決する効果的なソリューションであるShifted Position Embedding(ShiftPE)を導入する。
この基盤の上に構築されたAdvanced Attention Sharing (AAS) は,DiT内でのアテンション共有の可能性を完全に解き放つように設計された3つのテクニックのスイートである。
さらに,提案手法の適用性を高めるために,効率的なクエリ,キー,値の特徴抽出アルゴリズムを提案する。
大規模な実験結果から,本手法は正確なテキスト・画像のアライメントを維持しつつ,生成画像間のスタイルの整合性を効果的に向上することを確認した。
関連論文リスト
- SAGA: Learning Signal-Aligned Distributions for Improved Text-to-Image Generation [9.212970624261272]
最先端のテキスト画像モデルは視覚的に印象的な結果をもたらすが、しばしばテキストプロンプトへの正確なアライメントに苦慮する。
本稿では,ターゲットプロンプトに条件付き高精度分布を学習する手法を提案する。
提案手法は,過度な最適化を緩和する微粒化制御を実現することで,デノナイズプロセス中の信号成分を明示的にモデル化する。
論文 参考訳(メタデータ) (2025-08-19T14:31:15Z) - A Training-Free Style-aligned Image Generation with Scale-wise Autoregressive Model [11.426771898890998]
本稿では,スケールワイド自己回帰モデルを利用した学習自由なスタイル整列画像生成手法を提案する。
提案手法は競合するアプローチに匹敵する品質を示し,スタイルアライメントを大幅に改善し,高速モデルよりも6倍高速な推論速度を実現する。
論文 参考訳(メタデータ) (2025-04-08T15:39:25Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - Layered Rendering Diffusion Model for Controllable Zero-Shot Image Synthesis [15.76266032768078]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
まず、摂動分布の基本的な空間的キューとして視覚誘導を導入する。
本稿では,複数のレイヤからなる画像レンダリングプロセスを構築する汎用フレームワークであるLayered Rendering Diffusion (LRDiff)を提案する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。