論文の概要: CreatiParser: Generative Image Parsing of Raster Graphic Designs into Editable Layers
- arxiv url: http://arxiv.org/abs/2604.19632v1
- Date: Tue, 21 Apr 2026 16:20:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.865632
- Title: CreatiParser: Generative Image Parsing of Raster Graphic Designs into Editable Layers
- Title(参考訳): CreatiParser:ラスタグラフィックデザインの編集可能なレイヤへの生成イメージパーシング
- Authors: Weidong Chen, Dexiang Hong, Zhendong Mao, Yutao Cheng, Xinyan Liu, Lei Zhang, Yongdong Zhang,
- Abstract要約: グラフィックデザイン解析のためのハイブリッドな生成フレームワークを提案する。
デザインイメージを編集可能なテキスト、バックグラウンド、ステッカー層に分解する。
テキスト領域は、視覚言語モデルを用いてテキスト設計プロトコルに解析される。
背景ステッカー層はマルチブランチ拡散アーキテクチャを用いて生成される。
- 参考スコア(独自算出の注目度): 48.779823303618734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graphic design images consist of multiple editable layers, such as text, background, and decorative elements, while most generative models produce rasterized outputs without explicit layer structures, limiting downstream editing. Existing graphic design parsing methods typically rely on multi-stage pipelines combining layout prediction, matting, and inpainting, which suffer from error accumulation and limited controllability. We propose a hybrid generative framework for raster-to-layer graphic design parsing that decomposes a design image into editable text, background, and sticker layers. Text regions are parsed using a vision-language model into a text rendering protocol, enabling faithful reconstruction and flexible re-editing, while background and sticker layers are generated using a multi-branch diffusion architecture with RGBA support. We further introduce ParserReward and integrate it with Group Relative Policy Optimization to align generation quality with human design preferences. Extensive experiments on two challenging datasets, \emph{i.e.,} the Parser-40K and Crello datasets, demonstrate superior performance over existing methods, \emph{eg.,} achieving an overall average improvement of 23.7\% across all metrics.
- Abstract(参考訳): グラフィックデザインイメージは、テキスト、背景、装飾要素などの複数の編集可能なレイヤで構成され、ほとんどの生成モデルは、明示的なレイヤ構造を伴わずにラスタライズされた出力を生成し、下流の編集を制限する。
既存のグラフィックデザイン解析手法は、レイアウト予測、マット、塗装を組み合わせた多段パイプラインに依存しており、これはエラーの蓄積と限定的な制御性に悩まされている。
本稿では,ラスタ・ツー・レイヤ・グラフィック・デザイン・パースのためのハイブリッド・ジェネレーション・フレームワークを提案し,その設計画像を編集可能なテキスト・背景・ステッカー層に分解する。
テキスト領域は、視覚言語モデルを用いてテキストレンダリングプロトコルに解析され、忠実な再構築と柔軟な再編集が可能となり、背景層とステッカー層は、RGBAをサポートするマルチブランチ拡散アーキテクチャを用いて生成される。
さらに、ParserRewardを導入し、グループ相対政策最適化と統合して、世代品質と人間設計の好みを整合させる。
Parser-40K と Crello のデータセットである \emph{i.e.} は、既存のメソッドである \emph{eg よりも優れた性能を示す。
総合的な平均改善率は、すべての指標で23.7\%である。
関連論文リスト
- LaDe: Unified Multi-Layered Graphic Media Generation and Decomposition [4.794064830289192]
そこで我々はLaDeを提案する。LaDeはフレキシブルな多くの意味論的意味のある層を生成する潜在拡散フレームワークである。
LaDeは3つのコンポーネントを組み合わせる: LLMベースのプロンプト拡張器で、短いユーザインテントを階層単位の記述に変換する。
トレーニング中にレイヤサンプルを条件付けすることにより,テキスト・ツー・イメージ生成,テキスト・ツー・レイヤ・メディア設計生成,メディア設計の分解という3つのタスクをサポートする。
論文 参考訳(メタデータ) (2026-03-18T17:34:07Z) - Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition [73.43121650616804]
単一のRGB画像を複数の意味的不整合RGBA層に分解するエンドツーエンド拡散モデルである textbfQwen-Image-Layered を提案する。
本手法は,分解品質の既存手法を大幅に上回り,一貫した画像編集のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-12-17T17:12:42Z) - MagicQuillV2: Precise and Interactive Image Editing with Layered Visual Cues [106.02577891104079]
本稿では,生成画像編集のための合成パラダイムであるMagicQuill V2を提案する。
本手法は,創造性を制御可能な視覚的手がかりのスタックに分解する。
論文 参考訳(メタデータ) (2025-12-02T18:59:58Z) - IGD: Instructional Graphic Design with Multimodal Layer Generation [83.31320209596991]
レイアウト生成に大きく依存する2段階の手法は創造性とインテリジェンスに欠けており、グラフィックデザインは依然として労働集約的である。
自然言語命令のみで編集可能な柔軟性を持つマルチモーダル層を高速に生成するインストラクショナルグラフィックデザイナ(IGD)を提案する。
論文 参考訳(メタデータ) (2025-07-14T04:31:15Z) - Rethinking Layered Graphic Design Generation with a Top-Down Approach [76.33538798060326]
図形デザインは、アイデアやメッセージを伝えるのに不可欠である。デザイナーは通常、編集を簡単にするために、オブジェクト、背景、ベクトル化されたテキスト層に作業を整理する。
GenAI方式の登場により、ピクセルフォーマットにおける高品質なグラフィックデザインの無限の供給がよりアクセスしやすくなってきた。
これにもかかわらず、非層型設計は人間の設計を刺激し、レイアウトやテキストスタイルの選択に影響を与え、最終的に層型設計を導いた。
本稿では,AI生成したデザインを編集可能な階層化設計に変換する最初の試みとして,グラフィックデザイン生成フレームワークであるAccordionを提案する。
論文 参考訳(メタデータ) (2025-07-08T02:26:08Z) - CreatiPoster: Towards Editable and Controllable Multi-Layer Graphic Design Generation [13.354283356097563]
CreatiPosterは、任意の自然言語命令やアセットから編集可能な多層合成を生成するフレームワークである。
さらなる研究のために、我々は10万の多層設計の著作権フリーコーパスをリリースする。
論文 参考訳(メタデータ) (2025-06-12T16:54:39Z) - LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model [70.14953942532621]
層共同拡散モデルであるLayerDiffは、テキスト誘導、多層化、構成可能な画像合成のために設計されている。
本モデルでは,従来の全画像生成手法に匹敵する性能で,高品質な多層画像を生成することができる。
LayerDiffは、レイヤ固有の画像編集やスタイル転送など、幅広いコントロール可能な生成アプリケーションを可能にする。
論文 参考訳(メタデータ) (2024-03-18T16:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。