論文の概要: LaDe: Unified Multi-Layered Graphic Media Generation and Decomposition
- arxiv url: http://arxiv.org/abs/2603.17965v1
- Date: Wed, 18 Mar 2026 17:34:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.857159
- Title: LaDe: Unified Multi-Layered Graphic Media Generation and Decomposition
- Title(参考訳): LaDe: 統一多層グラフィカルメディア生成と分解
- Authors: Vlad-Constantin Lungu-Stan, Ionut Mironica, Mariana-Iuliana Georgescu,
- Abstract要約: そこで我々はLaDeを提案する。LaDeはフレキシブルな多くの意味論的意味のある層を生成する潜在拡散フレームワークである。
LaDeは3つのコンポーネントを組み合わせる: LLMベースのプロンプト拡張器で、短いユーザインテントを階層単位の記述に変換する。
トレーニング中にレイヤサンプルを条件付けすることにより,テキスト・ツー・イメージ生成,テキスト・ツー・レイヤ・メディア設計生成,メディア設計の分解という3つのタスクをサポートする。
- 参考スコア(独自算出の注目度): 4.794064830289192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Media design layer generation enables the creation of fully editable, layered design documents such as posters, flyers, and logos using only natural language prompts. Existing methods either restrict outputs to a fixed number of layers or require each layer to contain only spatially continuous regions, causing the layer count to scale linearly with design complexity. We propose LaDe (Layered Media Design), a latent diffusion framework that generates a flexible number of semantically meaningful layers. LaDe combines three components: an LLM-based prompt expander that transforms a short user intent into structured per-layer descriptions that guide the generation, a Latent Diffusion Transformer with a 4D RoPE positional encoding mechanism that jointly generates the full media design and its constituent RGBA layers, and an RGBA VAE that decodes each layer with full alpha-channel support. By conditioning on layer samples during training, our unified framework supports three tasks: text-to-image generation, text-to-layers media design generation, and media design decomposition. We compare LaDe to Qwen-Image-Layered on text-to-layers and image-to-layers tasks on the Crello test set. LaDe outperforms Qwen-Image-Layered in text-to-layers generation by improving text-to-layer alignment, as validated by two VLM-as-a-judge evaluators (GPT-4o mini and Qwen3-VL).
- Abstract(参考訳): メディアデザイン層の生成により、ポスター、チラシ、ロゴなどの完全な編集可能で階層化された設計文書を自然言語のプロンプトだけを使って作成することができる。
既存の手法では、出力を一定数の層に制限するか、あるいは各層に空間的に連続した領域しか含まないよう要求する。
そこで我々はLaDe(Layered Media Design)を提案する。LaDe(Layered Media Design)は,柔軟な意味論的意味のあるレイヤを生成する潜在拡散フレームワークである。
LaDeには、3つのコンポーネントが組み込まれている: LLMベースのプロンプト展開器は、短いユーザインテントを、生成を導く構造化された層ごとの記述に変換する。
トレーニング中にレイヤサンプルを条件付けすることにより,テキスト・ツー・イメージ生成,テキスト・ツー・レイヤ・メディア設計生成,メディア設計の分解という3つのタスクをサポートする。
テキスト・ツー・レイヤー上のLaDe と Qwen-Image-Layered と Crello テストセット上の Image-to-layers タスクを比較した。
LaDeは、2つのVLM-as-a-judge評価器(GPT-4o miniとQwen3-VL)で検証されるように、テキスト・ツー・レイヤアライメントを改善して、Qwen-Image-Layeredをテキスト・ツー・レイヤ生成で上回る。
関連論文リスト
- Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition [73.43121650616804]
単一のRGB画像を複数の意味的不整合RGBA層に分解するエンドツーエンド拡散モデルである textbfQwen-Image-Layered を提案する。
本手法は,分解品質の既存手法を大幅に上回り,一貫した画像編集のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-12-17T17:12:42Z) - LayerFlow: A Unified Model for Layer-aware Video Generation [30.252873238218324]
レイヤごとのプロンプトが与えられると、LayerFlowは透明なフォアグラウンド、クリーンなバックグラウンド、ブレンドシーンのためのビデオを生成する。
また、ブレンドされたビデオを分解したり、フォアグラウンドの背景を生成するなど、多用途のバリエーションもサポートしている。
論文 参考訳(メタデータ) (2025-06-04T17:59:58Z) - PSDiffusion: Harmonized Multi-Layer Image Generation via Layout and Appearance Alignment [23.67447416568964]
透明な画像層生成はデジタルアートとデザインにおいて重要な役割を果たしている。
既存の手法では、ツールセットを使用して単一のRGBイメージから透過層を分解したり、複数の透過層を順次生成するのが一般的である。
PSDiffusionは,複数層同時生成のための事前学習画像拡散モデルから,画像合成の先行情報を活用する統合拡散フレームワークである。
論文 参考訳(メタデータ) (2025-05-16T17:23:35Z) - DreamLayer: Simultaneous Multi-Layer Generation via Diffusion Mode [47.32061459437175]
複数の画像層をコヒーレントなテキスト駆動で生成できるフレームワークであるDreamLayerを紹介する。
透過的なフォアグラウンド層とバックグラウンド層の関係を明示的にモデル化することで、DreamLayerは層間接続を構築する。
実験とユーザスタディにより、DreamLayerはよりコヒーレントで整合したレイヤを生成することが示された。
論文 参考訳(メタデータ) (2025-03-17T05:34:11Z) - ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation [108.69315278353932]
可変多層透明画像の直接生成を容易にするAnonymous Region Transformer(ART)を導入する。
正確な制御とスケーラブルなレイヤ生成を可能にすることで、ARTはインタラクティブなコンテンツ作成のための新しいパラダイムを確立します。
論文 参考訳(メタデータ) (2025-02-25T16:57:04Z) - LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model [70.14953942532621]
層共同拡散モデルであるLayerDiffは、テキスト誘導、多層化、構成可能な画像合成のために設計されている。
本モデルでは,従来の全画像生成手法に匹敵する性能で,高品質な多層画像を生成することができる。
LayerDiffは、レイヤ固有の画像編集やスタイル転送など、幅広いコントロール可能な生成アプリケーションを可能にする。
論文 参考訳(メタデータ) (2024-03-18T16:28:28Z) - Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs [77.86214400258473]
トレーニング不要なテキスト・画像生成/編集フレームワークであるRecaption, Plan and Generate(RPG)を提案する。
RPGは、マルチモーダルLLMの強力な連鎖推論能力を活用し、テキストから画像への拡散モデルの合成性を高める。
本フレームワークはMLLMアーキテクチャとの広範な互換性を示す。
論文 参考訳(メタデータ) (2024-01-22T06:16:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。