論文の概要: Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition
- arxiv url: http://arxiv.org/abs/2512.15603v1
- Date: Wed, 17 Dec 2025 17:12:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.06947
- Title: Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition
- Title(参考訳): Qwen-Image-Layered:レイヤ分解による一貫性のある編集性を目指して
- Authors: Shengming Yin, Zekai Zhang, Zecheng Tang, Kaiyuan Gao, Xiao Xu, Kun Yan, Jiahao Li, Yilei Chen, Yuxiang Chen, Heung-Yeung Shum, Lionel M. Ni, Jingren Zhou, Junyang Lin, Chenfei Wu,
- Abstract要約: 単一のRGB画像を複数の意味的不整合RGBA層に分解するエンドツーエンド拡散モデルである textbfQwen-Image-Layered を提案する。
本手法は,分解品質の既存手法を大幅に上回り,一貫した画像編集のための新しいパラダイムを確立する。
- 参考スコア(独自算出の注目度): 73.43121650616804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent visual generative models often struggle with consistency during image editing due to the entangled nature of raster images, where all visual content is fused into a single canvas. In contrast, professional design tools employ layered representations, allowing isolated edits while preserving consistency. Motivated by this, we propose \textbf{Qwen-Image-Layered}, an end-to-end diffusion model that decomposes a single RGB image into multiple semantically disentangled RGBA layers, enabling \textbf{inherent editability}, where each RGBA layer can be independently manipulated without affecting other content. To support variable-length decomposition, we introduce three key components: (1) an RGBA-VAE to unify the latent representations of RGB and RGBA images; (2) a VLD-MMDiT (Variable Layers Decomposition MMDiT) architecture capable of decomposing a variable number of image layers; and (3) a Multi-stage Training strategy to adapt a pretrained image generation model into a multilayer image decomposer. Furthermore, to address the scarcity of high-quality multilayer training images, we build a pipeline to extract and annotate multilayer images from Photoshop documents (PSD). Experiments demonstrate that our method significantly surpasses existing approaches in decomposition quality and establishes a new paradigm for consistent image editing. Our code and models are released on \href{https://github.com/QwenLM/Qwen-Image-Layered}{https://github.com/QwenLM/Qwen-Image-Layered}
- Abstract(参考訳): 最近の視覚生成モデルは、全ての視覚コンテンツを単一のキャンバスに融合させるラスター画像の絡み合った性質のために、画像編集中に一貫性に苦しむことが多い。
対照的に、プロの設計ツールは階層化された表現を採用し、一貫性を維持しながら独立した編集を可能にする。
これにより、単一のRGB画像を複数の意味的に不整合したRGBA層に分解し、各RGBA層を他のコンテンツに影響を与えずに独立に操作できる、エンド・ツー・エンド拡散モデルである \textbf{Qwen-Image-Layered} を提案する。
可変長分解をサポートするために,(1)RGBおよびRGBA画像の潜伏表現を統一するRGBA-VAE,(2)可変数の画像層を分解可能なVLD-MMDiTアーキテクチャ,(3)事前学習された画像生成モデルを多層画像デコンプタに適応するためのマルチステージトレーニング戦略を紹介する。
さらに,高品質な多層トレーニング画像の不足に対処するため,Photoshop文書(PSD)から多層画像の抽出と注釈付けを行うパイプラインを構築した。
実験により,本手法は分解品質の既存手法を大幅に上回り,一貫した画像編集のための新たなパラダイムを確立した。
我々のコードとモデルは \href{https://github.com/QwenLM/Qwen-Image-Layered}{https://github.com/QwenLM/Qwen-Image-Layered} でリリースされる。
関連論文リスト
- PSDiffusion: Harmonized Multi-Layer Image Generation via Layout and Appearance Alignment [23.67447416568964]
透明な画像層生成はデジタルアートとデザインにおいて重要な役割を果たしている。
既存の手法では、ツールセットを使用して単一のRGBイメージから透過層を分解したり、複数の透過層を順次生成するのが一般的である。
PSDiffusionは,複数層同時生成のための事前学習画像拡散モデルから,画像合成の先行情報を活用する統合拡散フレームワークである。
論文 参考訳(メタデータ) (2025-05-16T17:23:35Z) - Generative Image Layer Decomposition with Visual Effects [49.75021036203426]
LayerDecompは、イメージ層分解のための生成フレームワークである。
清潔な背景と、忠実に保存された視覚効果を持つ高品質な透明な前景を作り出す。
本手法は,オブジェクト除去や空間編集作業において,既存の手法よりも優れた分解特性を実現する。
論文 参考訳(メタデータ) (2024-11-26T20:26:49Z) - MULAN: A Multi Layer Annotated Dataset for Controllable Text-to-Image Generation [54.64194935409982]
44K MUlti-Layer-wise RGBA 分解からなる新しいデータセット MuLAn を紹介する。
MuLAnは、高品質な画像のインスタンス分解と空間情報を提供する最初のフォトリアリスティックなリソースである。
我々は,新しい生成・編集技術,特にレイヤワイドソリューションの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2024-04-03T14:58:00Z) - DesignEdit: Multi-Layered Latent Decomposition and Fusion for Unified & Accurate Image Editing [22.855660721387167]
本研究では,空間認識画像編集タスクを2つのサブタスク,多層ラテント分解と多層ラテント融合の組合せに変換する。
提案手法は,自己ガイドやDiffEditorなど,最新の空間編集手法を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:35:42Z) - LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model [70.14953942532621]
層共同拡散モデルであるLayerDiffは、テキスト誘導、多層化、構成可能な画像合成のために設計されている。
本モデルでは,従来の全画像生成手法に匹敵する性能で,高品質な多層画像を生成することができる。
LayerDiffは、レイヤ固有の画像編集やスタイル転送など、幅広いコントロール可能な生成アプリケーションを可能にする。
論文 参考訳(メタデータ) (2024-03-18T16:28:28Z) - Consolidating Attention Features for Multi-view Image Editing [126.19731971010475]
本研究では,空間制御に基づく幾何学的操作に着目し,様々な視点にまたがって編集プロセスを統合する手法を提案する。
編集画像の内部クエリ機能に基づいて訓練されたニューラルラジアンス場QNeRFを紹介する。
拡散時間の経過とともにクエリをよりよく統合する、プログレッシブで反復的な手法により、プロセスを洗練します。
論文 参考訳(メタデータ) (2024-02-22T18:50:18Z) - DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。