論文の概要: MRT: Masked Region Transformer for Layered Image Generation and Editing at Scale
- arxiv url: http://arxiv.org/abs/2605.27235v1
- Date: Tue, 26 May 2026 16:16:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.405735
- Title: MRT: Masked Region Transformer for Layered Image Generation and Editing at Scale
- Title(参考訳): MRT: 階層画像生成と編集を大規模に行うマスク付き領域変換器
- Authors: Zhicong Tang, Zhao Zhang, Jingye Chen, Mohan Zhou, Yifan Pu, Yuchi Liu, Yalong Bai, Ethan Smith, Yuhui Yuan,
- Abstract要約: 階層化画像生成と編集は、生成したビジュアルコンテンツのレイヤワイドな再利用、編集、合成を可能にする基本的な機能である。
多層透明画像の生成と編集に適した20Bパラメータマスク領域拡散モデル MRT を提案する。
共有マスキング領域拡散フレームワークにおいて,テキスト・ツー・レイヤ,画像・ツー・レイヤ,レイヤ・ツー・レイヤの3つの補完的タスクを統合する。
- 参考スコア(独自算出の注目度): 32.89343828792041
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Layered image generation and editing is a fundamental capability that enables layer-wise reuse, editing, and composition of generated visual content, analogous to word-level editing in natural language. Despite its importance, this remains an underexplored area at scale. To address this gap, we present MRT, a 20B-parameter masked region diffusion model tailored for multi-layer transparent image generation and editing, trained on over 10M multilingual design samples spanning diverse aspect ratios and textual prompts. To fully leverage this scale, we make two key technical contributions. First, we unify three complementary tasks including text-to-layers, image-to-layers, and layers-to-layers within a shared masked region diffusion framework, where selective token masking enables flexible layer-wise generation and editing. Second, to enable overflow layer generation, we introduce an overflow-aware canvas layer that handles boundary inconsistencies and supports semi-transparent background synthesis, enabling complete editable layers extending beyond visible canvas boundaries. Additionally, we apply diffusion distillation to achieve 8-step, real-time multi-layer generation with minimal quality degradation. Extensive experiments demonstrate that our framework substantially outperforms prior state-of-the-art approaches, including various commercial systems, across all three tasks, establishing a new benchmark for multi-layer transparent image generation. Notably, our model significantly outperforms the concurrent Qwen-Image-Layered model in image-to-layers quality according to user-study results, while achieving 10-100\times faster inference and reducing activation GPU memory consumption by 50-90\% during image-to-layer inference.
- Abstract(参考訳): 階層化画像生成と編集は、自然言語における単語レベルの編集に類似した、生成したビジュアルコンテンツの層単位での再利用、編集、合成を可能にする基本的な機能である。
その重要性にもかかわらず、この地は大規模に調査されていない地域である。
このギャップに対処するために,多層透明画像の生成と編集に適した20Bパラメータマスク領域拡散モデル MRT を提案する。
このスケールを完全に活用するために、私たちは2つの重要な技術貢献をします。
まず,テキスト・ツー・レイヤ,イメージ・ツー・レイヤ,レイヤ・ツー・レイヤといった3つの補完的なタスクを共有マスキング領域拡散フレームワークにまとめる。
第2に,オーバーフロー層生成を実現するために,境界の不整合を処理し,半透明な背景合成をサポートするオーバーフロー対応キャンバス層を導入する。
さらに, 拡散蒸留を適用して, 品質劣化を最小限に抑えた8段階, リアルタイム多層生成を実現する。
大規模な実験により、我々のフレームワークは3つのタスクすべてにわたって、様々な商用システムを含む最先端のアプローチを大幅に上回っており、多層透明画像生成のための新しいベンチマークが確立されている。
特に,本モデルでは,イメージ・ツー・レイヤ間の推論において,10~100倍の高速化を実現し,アクティベーションGPUのメモリ消費を50~90倍に削減しつつ,画像・レイヤ間品質において,コンカレントQwen-Image-Layeredモデルを著しく向上させる。
関連論文リスト
- Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition [73.43121650616804]
単一のRGB画像を複数の意味的不整合RGBA層に分解するエンドツーエンド拡散モデルである textbfQwen-Image-Layered を提案する。
本手法は,分解品質の既存手法を大幅に上回り,一貫した画像編集のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-12-17T17:12:42Z) - Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation [63.50827603618498]
マルチモーダル理解と生成のための統一型マスク付き拡散モデル(MDM)であるLavida-Oを提案する。
Lavida-Oは、画像レベルの理解、オブジェクトのグラウンド化、画像編集、高解像度のテキスト・ツー・イメージ合成を可能にする単一のフレームワークを提供する。
Lavida-Oは、RefCOCOオブジェクトグラウンド、GenEvalテキスト画像生成、ImgEdit画像編集など、幅広いベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-09-23T17:05:46Z) - PSDiffusion: Harmonized Multi-Layer Image Generation via Layout and Appearance Alignment [23.67447416568964]
透明な画像層生成はデジタルアートとデザインにおいて重要な役割を果たしている。
既存の手法では、ツールセットを使用して単一のRGBイメージから透過層を分解したり、複数の透過層を順次生成するのが一般的である。
PSDiffusionは,複数層同時生成のための事前学習画像拡散モデルから,画像合成の先行情報を活用する統合拡散フレームワークである。
論文 参考訳(メタデータ) (2025-05-16T17:23:35Z) - DreamLayer: Simultaneous Multi-Layer Generation via Diffusion Mode [47.32061459437175]
複数の画像層をコヒーレントなテキスト駆動で生成できるフレームワークであるDreamLayerを紹介する。
透過的なフォアグラウンド層とバックグラウンド層の関係を明示的にモデル化することで、DreamLayerは層間接続を構築する。
実験とユーザスタディにより、DreamLayerはよりコヒーレントで整合したレイヤを生成することが示された。
論文 参考訳(メタデータ) (2025-03-17T05:34:11Z) - ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation [108.69315278353932]
可変多層透明画像の直接生成を容易にするAnonymous Region Transformer(ART)を導入する。
正確な制御とスケーラブルなレイヤ生成を可能にすることで、ARTはインタラクティブなコンテンツ作成のための新しいパラダイムを確立します。
論文 参考訳(メタデータ) (2025-02-25T16:57:04Z) - LayerFusion: Harmonized Multi-Layer Text-to-Image Generation with Generative Priors [38.47462111828742]
階層化されたコンテンツ生成はグラフィックデザイン、アニメーション、デジタルアートといった創造的な分野に不可欠である。
本稿では,2層画像を生成する遅延拡散モデル(LDM)に基づく新しい画像生成パイプラインを提案する。
ベースライン法と比較して,視覚的コヒーレンス,画像品質,レイヤの整合性に大きな改善が見られた。
論文 参考訳(メタデータ) (2024-12-05T18:59:18Z) - Generative Image Layer Decomposition with Visual Effects [49.75021036203426]
LayerDecompは、イメージ層分解のための生成フレームワークである。
清潔な背景と、忠実に保存された視覚効果を持つ高品質な透明な前景を作り出す。
本手法は,オブジェクト除去や空間編集作業において,既存の手法よりも優れた分解特性を実現する。
論文 参考訳(メタデータ) (2024-11-26T20:26:49Z) - DesignEdit: Multi-Layered Latent Decomposition and Fusion for Unified & Accurate Image Editing [22.855660721387167]
本研究では,空間認識画像編集タスクを2つのサブタスク,多層ラテント分解と多層ラテント融合の組合せに変換する。
提案手法は,自己ガイドやDiffEditorなど,最新の空間編集手法を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:35:42Z) - LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model [70.14953942532621]
層共同拡散モデルであるLayerDiffは、テキスト誘導、多層化、構成可能な画像合成のために設計されている。
本モデルでは,従来の全画像生成手法に匹敵する性能で,高品質な多層画像を生成することができる。
LayerDiffは、レイヤ固有の画像編集やスタイル転送など、幅広いコントロール可能な生成アプリケーションを可能にする。
論文 参考訳(メタデータ) (2024-03-18T16:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。