論文の概要: SplitFlux: Learning to Decouple Content and Style from a Single Image
- arxiv url: http://arxiv.org/abs/2511.15258v1
- Date: Wed, 19 Nov 2025 09:22:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.722194
- Title: SplitFlux: Learning to Decouple Content and Style from a Single Image
- Title(参考訳): SplitFlux: 単一のイメージからコンテンツとスタイルを分離する学習
- Authors: Yitong Yang, Yinglin Wang, Changshuo Wang, Yongjun Zhang, Ziyang Chen, Shuting He,
- Abstract要約: 本稿では,LoRAによる単一ドリームブロックの微調整によってコンテンツやスタイルを歪曲するSplitFluxを提案する。
SplitFluxは最先端の手法を一貫して上回り、さまざまなシナリオで優れたコンテンツ保存とスタイリング品質を実現している。
- 参考スコア(独自算出の注目度): 30.266379089038264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Disentangling image content and style is essential for customized image generation. Existing SDXL-based methods struggle to achieve high-quality results, while the recently proposed Flux model fails to achieve effective content-style separation due to its underexplored characteristics. To address these challenges, we conduct a systematic analysis of Flux and make two key observations: (1) Single Dream Blocks are essential for image generation; and (2) Early single stream blocks mainly control content, whereas later blocks govern style. Based on these insights, we propose SplitFlux, which disentangles content and style by fine-tuning the single dream blocks via LoRA, enabling the disentangled content to be re-embedded into new contexts. It includes two key components: (1) Rank-Constrained Adaptation. To preserve content identity and structure, we compress the rank and amplify the magnitude of updates within specific blocks, preventing content leakage into style blocks. (2) Visual-Gated LoRA. We split the content LoRA into two branches with different ranks, guided by image saliency. The high-rank branch preserves primary subject information, while the low-rank branch encodes residual details, mitigating content overfitting and enabling seamless re-embedding. Extensive experiments demonstrate that SplitFlux consistently outperforms state-of-the-art methods, achieving superior content preservation and stylization quality across diverse scenarios.
- Abstract(参考訳): 画像コンテンツとスタイルの分離は、カスタマイズされた画像生成に不可欠である。
既存のSDXLベースの手法は高品質な結果を得るのに苦労するが、最近提案されたFluxモデルは、その未探索特性のため、効果的なコンテンツスタイルの分離を達成できない。
これらの課題に対処するため,Flux の体系的解析を行い,(1) 単一ドリームブロックは画像生成に不可欠であり,(2) 初期シングルストリームブロックは主にコンテンツを制御するが,後続ブロックはスタイルを管理する。
これらの知見に基づいて、LoRAを介して単一のドリームブロックを微調整し、コンテンツとスタイルをアンタングル化するSplitFluxを提案する。
1)ランク制約適応( Rank-Constrained Adaptation)。
コンテンツアイデンティティと構造を維持するため、ランクを圧縮し、特定のブロック内で更新の規模を拡大し、コンテンツリークをスタイルブロックに防止する。
2) Visual-Gated LoRA。
私たちは、LoRAを2つのブランチに分けて、画像の保存性によってガイドしました。
上位ブランチは主主題情報を保存し、下位ブランチは残留詳細を符号化し、コンテンツの過度な適合を緩和し、シームレスな再埋め込みを可能にする。
広範な実験により、SplitFluxは最先端の手法を一貫して上回り、さまざまなシナリオで優れたコンテンツ保存とスタイリゼーション品質を実現している。
関連論文リスト
- RAM++: Robust Representation Learning via Adaptive Mask for All-in-One Image Restoration [94.49712266736141]
RAM++はオールインワンイメージ復元のための2段階のフレームワークである。
高レベルのセマンティック理解と低レベルのテクスチャ生成を統合する。
極端なシナリオでは、既存の劣化指向のメソッドの制限に対処します。
論文 参考訳(メタデータ) (2025-09-15T15:24:15Z) - BlobCtrl: Taming Controllable Blob for Element-level Image Editing [114.70394950139188]
BlobCtrlは確率的ブロブに基づく表現に基づく要素レベルの画像編集のためのフレームワークである。
ブロブをビジュアルプリミティブとして扱うことで、BlobCtrlはレイアウトを外観から切り離し、きめ細かい制御可能なオブジェクトレベルの操作を可能にする。
論文 参考訳(メタデータ) (2025-03-17T17:58:05Z) - ConsisLoRA: Enhancing Content and Style Consistency for LoRA-based Style Transfer [20.088714830700916]
スタイル転送は、参照画像からターゲット画像の内容へのスタイル転送を伴う。
LoRA(Low-Rank Adaptation)手法の最近の進歩は、単一の画像のスタイルを効果的に捉えることに有望であることを示している。
これらのアプローチは、コンテンツの不整合、スタイルのミスアライメント、コンテンツリークといった重要な課題に直面している。
論文 参考訳(メタデータ) (2025-03-13T17:55:58Z) - WikiStyle+: A Multimodal Approach to Content-Style Representation Disentanglement for Artistic Image Stylization [0.0]
芸術的なイメージスタイリングは、テキストや画像が提供するコンテンツをターゲットスタイルでレンダリングすることを目的としている。
コンテンツとスタイルのゆがみの現在の手法は、画像の監督に依存している。
本稿では,芸術的イメージスタイリングのためのコンテンツスタイルのゆがみに対するマルチモーダルアプローチを提案する。
論文 参考訳(メタデータ) (2024-12-19T03:42:58Z) - DiffuseST: Unleashing the Capability of the Diffusion Model for Style Transfer [13.588643982359413]
スタイル転送は、スタイル画像の芸術的表現をコンテンツ画像の構造情報と融合させることを目的としている。
既存の方法は特定のネットワークを訓練したり、事前訓練されたモデルを使ってコンテンツやスタイルの特徴を学習する。
本稿では,テキスト埋め込みと空間的特徴を組み合わせた,新しい学習不要なスタイル伝達手法を提案する。
論文 参考訳(メタデータ) (2024-10-19T06:42:43Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - Implicit Style-Content Separation using B-LoRA [61.664293840163865]
一つの画像のスタイルとコンテンツコンポーネントを暗黙的に分離する手法であるB-LoRAを紹介する。
SDXLのアーキテクチャをLoRAと組み合わせて解析することにより、2つのブロックのLoRA重みを共同で学習することで、スタイル・コンテント分離を実現する。
論文 参考訳(メタデータ) (2024-03-21T17:20:21Z) - Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid [102.24539566851809]
画像中の任意の欠落する領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。
最近の画像インパインティングモデルは鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、それでもテクスチャのぼやけや構造的歪みにつながる可能性がある。
本研究では,画像中の局所的欠落コンテンツの回復に大きく貢献する,多スケールなセマンティック・セマンティック・ピラミッド・ネットワーク(SPN)を提案する。
論文 参考訳(メタデータ) (2021-12-08T04:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。