論文の概要: Controllable Layered Image Generation for Real-World Editing
- arxiv url: http://arxiv.org/abs/2601.15507v1
- Date: Wed, 21 Jan 2026 22:29:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.435395
- Title: Controllable Layered Image Generation for Real-World Editing
- Title(参考訳): 実世界編集のための制御可能な階層画像生成
- Authors: Jinrui Yang, Qing Liu, Yijun Li, Mengwei Ren, Letian Zhang, Zhe Lin, Cihang Xie, Yuyin Zhou,
- Abstract要約: LASAGNAは、その構成層と共同で画像を生成する、新しく統合されたフレームワークである。
クリーンな背景とRGBAフォアグラウンドからなる新しいデータセットであるLASAGNA-48Kを紹介した。
LASAGNAは複数の画像層にまたがって高度に一貫性があり一貫性のある結果を生成するのに優れていることを示す。
- 参考スコア(独自算出の注目度): 49.81321254149423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent image generation models have shown impressive progress, yet they often struggle to yield controllable and consistent results when users attempt to edit specific elements within an existing image. Layered representations enable flexible, user-driven content creation, but existing approaches often fail to produce layers with coherent compositing relationships, and their object layers typically lack realistic visual effects such as shadows and reflections. To overcome these limitations, we propose LASAGNA, a novel, unified framework that generates an image jointly with its composing layers--a photorealistic background and a high-quality transparent foreground with compelling visual effects. Unlike prior work, LASAGNA efficiently learns correct image composition from a wide range of conditioning inputs--text prompts, foreground, background, and location masks--offering greater controllability for real-world applications. To enable this, we introduce LASAGNA-48K, a new dataset composed of clean backgrounds and RGBA foregrounds with physically grounded visual effects. We also propose LASAGNABENCH, the first benchmark for layer editing. We demonstrate that LASAGNA excels in generating highly consistent and coherent results across multiple image layers simultaneously, enabling diverse post-editing applications that accurately preserve identity and visual effects. LASAGNA-48K and LASAGNABENCH will be publicly released to foster open research in the community. The project page is https://rayjryang.github.io/LASAGNA-Page/.
- Abstract(参考訳): 最近の画像生成モデルは目覚ましい進歩を見せているが、ユーザーが既存の画像内の特定の要素を編集しようとすると、制御可能で一貫した結果を得るのに苦労することが多い。
レイヤ表現はフレキシブルでユーザ主導のコンテンツ作成を可能にするが、既存のアプローチではコヒーレントな合成関係を持つレイヤの生成に失敗することが多く、オブジェクト層は一般的にシャドーやリフレクションのような現実的な視覚効果を欠いている。
これらの制約を克服するために,光学的背景と高画質な視覚効果を有する透明な前景を構成層と共同で生成する,新しい統一されたフレームワークであるLASAGNAを提案する。
従来の作業とは異なり、LASAGNAは、テキストプロンプト、フォアグラウンド、バックグラウンド、ロケーションマスクなど、幅広い条件入力から正確な画像合成を効率的に学習する。
これを実現するために,クリーン背景とRGBAフォアグラウンドからなる新しいデータセットであるLASAGNA-48Kを紹介した。
また,レイヤ編集のための最初のベンチマークであるLASAGNABENCHを提案する。
LASAGNAは、複数の画像層にまたがって高度に一貫性があり、一貫性のある結果を同時に生成し、アイデンティティと視覚効果を正確に保存する多様な後処理アプリケーションを可能にすることを実証する。
LASAGNA-48KとLASAGNABENCHは、コミュニティにおけるオープンな研究を促進するために一般公開される。
プロジェクトページはhttps://rayjryang.github.io/LASAGNA-Page/。
関連論文リスト
- Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition [73.43121650616804]
単一のRGB画像を複数の意味的不整合RGBA層に分解するエンドツーエンド拡散モデルである textbfQwen-Image-Layered を提案する。
本手法は,分解品質の既存手法を大幅に上回り,一貫した画像編集のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-12-17T17:12:42Z) - MagicQuillV2: Precise and Interactive Image Editing with Layered Visual Cues [106.02577891104079]
本稿では,生成画像編集のための合成パラダイムであるMagicQuill V2を提案する。
本手法は,創造性を制御可能な視覚的手がかりのスタックに分解する。
論文 参考訳(メタデータ) (2025-12-02T18:59:58Z) - PSDiffusion: Harmonized Multi-Layer Image Generation via Layout and Appearance Alignment [23.67447416568964]
透明な画像層生成はデジタルアートとデザインにおいて重要な役割を果たしている。
既存の手法では、ツールセットを使用して単一のRGBイメージから透過層を分解したり、複数の透過層を順次生成するのが一般的である。
PSDiffusionは,複数層同時生成のための事前学習画像拡散モデルから,画像合成の先行情報を活用する統合拡散フレームワークである。
論文 参考訳(メタデータ) (2025-05-16T17:23:35Z) - ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation [108.69315278353932]
可変多層透明画像の直接生成を容易にするAnonymous Region Transformer(ART)を導入する。
正確な制御とスケーラブルなレイヤ生成を可能にすることで、ARTはインタラクティブなコンテンツ作成のための新しいパラダイムを確立します。
論文 参考訳(メタデータ) (2025-02-25T16:57:04Z) - Materialist: Physically Based Editing Using Single-Image Inverse Rendering [47.85234717907478]
マテリアルスト(Materist)は、学習に基づくアプローチと物理的にベースとしたプログレッシブ・差別化可能なレンダリングを組み合わせる方法である。
我々のアプローチは、マテリアル編集、オブジェクト挿入、リライトなど、幅広いアプリケーションを可能にする。
実験は、合成および実世界のデータセット間で強力なパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-01-07T11:52:01Z) - BrushEdit: All-In-One Image Inpainting and Editing [76.93556996538398]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。
本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。
本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-13T17:58:06Z) - Generative Image Layer Decomposition with Visual Effects [49.75021036203426]
LayerDecompは、イメージ層分解のための生成フレームワークである。
清潔な背景と、忠実に保存された視覚効果を持つ高品質な透明な前景を作り出す。
本手法は,オブジェクト除去や空間編集作業において,既存の手法よりも優れた分解特性を実現する。
論文 参考訳(メタデータ) (2024-11-26T20:26:49Z) - DesignEdit: Multi-Layered Latent Decomposition and Fusion for Unified & Accurate Image Editing [22.855660721387167]
本研究では,空間認識画像編集タスクを2つのサブタスク,多層ラテント分解と多層ラテント融合の組合せに変換する。
提案手法は,自己ガイドやDiffEditorなど,最新の空間編集手法を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:35:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。