論文の概要: PrismLayers: Open Data for High-Quality Multi-Layer Transparent Image Generative Models
- arxiv url: http://arxiv.org/abs/2505.22523v1
- Date: Wed, 28 May 2025 16:09:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.719468
- Title: PrismLayers: Open Data for High-Quality Multi-Layer Transparent Image Generative Models
- Title(参考訳): PrismLayers: 高品質多層透明画像生成モデルのためのオープンデータ
- Authors: Junwen Chen, Heyang Jiang, Yanbin Wang, Keming Wu, Ji Li, Chao Zhang, Keiji Yanai, Dong Chen, Yuhui Yuan,
- Abstract要約: オープンで超高忠実なPrismLayersデータセットは200K (20K) の多層透明画像で, 正確なアルファマットが得られた。
また、最新のテキスト・画像生成モデルの美学と一致する強力なオープンソース多層生成モデルART+も提供します。
- 参考スコア(独自算出の注目度): 25.859278092788237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating high-quality, multi-layer transparent images from text prompts can unlock a new level of creative control, allowing users to edit each layer as effortlessly as editing text outputs from LLMs. However, the development of multi-layer generative models lags behind that of conventional text-to-image models due to the absence of a large, high-quality corpus of multi-layer transparent data. In this paper, we address this fundamental challenge by: (i) releasing the first open, ultra-high-fidelity PrismLayers (PrismLayersPro) dataset of 200K (20K) multilayer transparent images with accurate alpha mattes, (ii) introducing a trainingfree synthesis pipeline that generates such data on demand using off-the-shelf diffusion models, and (iii) delivering a strong, open-source multi-layer generation model, ART+, which matches the aesthetics of modern text-to-image generation models. The key technical contributions include: LayerFLUX, which excels at generating high-quality single transparent layers with accurate alpha mattes, and MultiLayerFLUX, which composes multiple LayerFLUX outputs into complete images, guided by human-annotated semantic layout. To ensure higher quality, we apply a rigorous filtering stage to remove artifacts and semantic mismatches, followed by human selection. Fine-tuning the state-of-the-art ART model on our synthetic PrismLayersPro yields ART+, which outperforms the original ART in 60% of head-to-head user study comparisons and even matches the visual quality of images generated by the FLUX.1-[dev] model. We anticipate that our work will establish a solid dataset foundation for the multi-layer transparent image generation task, enabling research and applications that require precise, editable, and visually compelling layered imagery.
- Abstract(参考訳): テキストプロンプトから高品質で多層透明な画像を生成することで、新しいレベルの創造的コントロールを解放することができる。
しかし,多層透明データに高品質なコーパスが存在しないため,従来のテキスト・画像モデルより遅れた多層生成モデルの開発が進んでいる。
本稿では、この根本的な課題に次のように対処する。
(i) 正確なアルファマットを持つ200K (20K) 多層透明画像の最初のオープンで超高忠実なPrismLayers(PrismLayersPro)データセットをリリースする。
二 オフ・ザ・シェルフ拡散モデルを用いて需要データを生成する無訓練合成パイプラインの導入、及び
(iii) 最新のテキスト・画像生成モデルの美学と一致する強力なオープンソース多層生成モデルART+を提供する。
重要な技術的コントリビューションとしては、高品質な単一透過層を正確なアルファマットで生成するLayerFLUXと、人間の注釈付きセマンティックレイアウトでガイドされた完全なイメージに複数のLayerFLUX出力を構成するMultiLayerFLUXがある。
高い品質を確保するために、厳密なフィルタリングステージを適用し、人工物や意味ミスマッチを除去し、続いて人間の選択を行う。
合成PrismLayersProで最先端のARTモデルを微調整するとART+が得られ、これは頭と頭の比較の60%でARTを上回り、FLUX.1-[dev]モデルで生成された画像の視覚的品質とさえ一致している。
我々は,多層透明画像生成タスクのためのソリッドデータセット基盤を構築し,正確で編集可能で視覚的に魅力的な層画像を必要とする研究やアプリケーションを実現することを期待する。
関連論文リスト
- PSDiffusion: Harmonized Multi-Layer Image Generation via Layout and Appearance Alignment [24.964578950380947]
PSDiffusionは、同時多層テキスト・画像生成のための統合拡散フレームワークである。
我々のモデルは、1つのRGB背景と複数のRGBAフォアグラウンドを持つ多層画像を自動的に生成することができる。
本手法では,層状画像を並列かつ協調的に生成するグローバル層対話機構を提案する。
論文 参考訳(メタデータ) (2025-05-16T17:23:35Z) - ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement [68.05833403672274]
既存の統一モデルでは、理解、生成、編集という3つの基本的な機能を統一モデルで扱うのに苦労している。
ILLUME+は、きめ細かいテクスチャとテキスト整合したセマンティクスを保存できる統合されたデュアルビジュアルトークンーであるDualViTokを導入した。
また、画像デトケナイザとして拡散モデルを用いて、生成品質と高効率超解像を実現する。
論文 参考訳(メタデータ) (2025-04-02T17:45:00Z) - ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation [108.69315278353932]
可変多層透明画像の直接生成を容易にするAnonymous Region Transformer(ART)を導入する。
正確な制御とスケーラブルなレイヤ生成を可能にすることで、ARTはインタラクティブなコンテンツ作成のための新しいパラダイムを確立します。
論文 参考訳(メタデータ) (2025-02-25T16:57:04Z) - LayerFusion: Harmonized Multi-Layer Text-to-Image Generation with Generative Priors [38.47462111828742]
階層化されたコンテンツ生成はグラフィックデザイン、アニメーション、デジタルアートといった創造的な分野に不可欠である。
本稿では,2層画像を生成する遅延拡散モデル(LDM)に基づく新しい画像生成パイプラインを提案する。
ベースライン法と比較して,視覚的コヒーレンス,画像品質,レイヤの整合性に大きな改善が見られた。
論文 参考訳(メタデータ) (2024-12-05T18:59:18Z) - Generative Image Layer Decomposition with Visual Effects [49.75021036203426]
LayerDecompは、イメージ層分解のための生成フレームワークである。
清潔な背景と、忠実に保存された視覚効果を持つ高品質な透明な前景を作り出す。
本手法は,オブジェクト除去や空間編集作業において,既存の手法よりも優れた分解特性を実現する。
論文 参考訳(メタデータ) (2024-11-26T20:26:49Z) - LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model [70.14953942532621]
層共同拡散モデルであるLayerDiffは、テキスト誘導、多層化、構成可能な画像合成のために設計されている。
本モデルでは,従来の全画像生成手法に匹敵する性能で,高品質な多層画像を生成することができる。
LayerDiffは、レイヤ固有の画像編集やスタイル転送など、幅広いコントロール可能な生成アプリケーションを可能にする。
論文 参考訳(メタデータ) (2024-03-18T16:28:28Z) - Transparent Image Layer Diffusion using Latent Transparency [30.77316047044662]
本稿では,大規模な事前学習型潜伏拡散モデルを用いて透過的な画像を生成する手法であるLayerDiffuseを提案する。
この手法は,アルファチャネル透過性を事前学習した潜伏拡散モデルの潜伏多様体に符号化する「潜伏透過性」を学習する。
これは、付加された透明性を潜在オフセットとして調節することにより、大きな拡散モデルの生産可能な品質を保っている。
論文 参考訳(メタデータ) (2024-02-27T01:19:53Z) - Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and
Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。
提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。
また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文 参考訳(メタデータ) (2023-10-05T12:29:41Z) - Text2Layer: Layered Image Generation using Latent Diffusion Model [12.902259486204898]
階層化画像生成の観点から階層化画像を生成することを提案する。
階層画像生成を実現するために,階層画像の再構成が可能なオートエンコーダを訓練する。
実験結果から,提案手法は高品質な階層画像を生成することができることがわかった。
論文 参考訳(メタデータ) (2023-07-19T06:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。