論文の概要: Referring Layer Decomposition
- arxiv url: http://arxiv.org/abs/2602.19358v1
- Date: Sun, 22 Feb 2026 22:05:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.605944
- Title: Referring Layer Decomposition
- Title(参考訳): 参照層分解
- Authors: Fangyi Chen, Yaojie Shen, Lu Xu, Ye Yuan, Shu Zhang, Yulei Niu, Longyin Wen,
- Abstract要約: 単一のRGB画像から完全なRGBA層を予測するRLD(Referring Layer Decomposition)タスクを導入する。
コアとなるRefLadeは、スケーラブルなデータエンジンによって生成される1.11Mイメージ層プロンプトトリプレットからなる大規模なデータセットです。
本稿では,プロンプト条件付き層分解のためのシンプルなベースラインRefLayerを提案し,高い視覚的忠実度とセマンティックアライメントを実現する。
- 参考スコア(独自算出の注目度): 25.128453386102887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Precise, object-aware control over visual content is essential for advanced image editing and compositional generation. Yet, most existing approaches operate on entire images holistically, limiting the ability to isolate and manipulate individual scene elements. In contrast, layered representations, where scenes are explicitly separated into objects, environmental context, and visual effects, provide a more intuitive and structured framework for interpreting and editing visual content. To bridge this gap and enable both compositional understanding and controllable editing, we introduce the Referring Layer Decomposition (RLD) task, which predicts complete RGBA layers from a single RGB image, conditioned on flexible user prompts, such as spatial inputs (e.g., points, boxes, masks), natural language descriptions, or combinations thereof. At the core is the RefLade, a large-scale dataset comprising 1.11M image-layer-prompt triplets produced by our scalable data engine, along with 100K manually curated, high-fidelity layers. Coupled with a perceptually grounded, human-preference-aligned automatic evaluation protocol, RefLade establishes RLD as a well-defined and benchmarkable research task. Building on this foundation, we present RefLayer, a simple baseline designed for prompt-conditioned layer decomposition, achieving high visual fidelity and semantic alignment. Extensive experiments show our approach enables effective training, reliable evaluation, and high-quality image decomposition, while exhibiting strong zero-shot generalization capabilities.
- Abstract(参考訳): ビジュアルコンテンツに対する精密でオブジェクト認識の制御は、高度な画像編集と合成生成に不可欠である。
しかし、既存のほとんどのアプローチは画像全体を一様に操作し、個々のシーン要素を分離し操作する能力を制限する。
対照的に、シーンが明示的にオブジェクト、環境コンテキスト、視覚効果に分離される階層表現は、視覚コンテンツを解釈し編集するためのより直感的で構造化されたフレームワークを提供する。
このギャップを埋め、構成的理解と制御可能な編集の両方を可能にするために、単一のRGB画像から完全なRGBA層を予測するReferring Layer Decomposition(RLD)タスクを導入する。
コアとなるRefLadeは、スケーラブルなデータエンジンが生成する1.11万のイメージ層プロンプトと、手動でキュレートされた高忠実度層で構成される大規模なデータセットである。
RefLadeは、知覚的に基礎を置き、人間に合った自動評価プロトコルと組み合わせて、RTDを適切に定義され、ベンチマーク可能な研究タスクとして確立している。
この基盤の上に構築されたRefLayerは,高視覚的忠実度とセマンティックアライメントを実現するために,プロンプト条件付き層分解のために設計されたシンプルなベースラインである。
広汎な実験により, 高いゼロショット一般化能力を示しながら, 効果的なトレーニング, 信頼性評価, 高品質な画像分解を可能にした。
関連論文リスト
- Controllable Layered Image Generation for Real-World Editing [49.81321254149423]
LASAGNAは、その構成層と共同で画像を生成する、新しく統合されたフレームワークである。
クリーンな背景とRGBAフォアグラウンドからなる新しいデータセットであるLASAGNA-48Kを紹介した。
LASAGNAは複数の画像層にまたがって高度に一貫性があり一貫性のある結果を生成するのに優れていることを示す。
論文 参考訳(メタデータ) (2026-01-21T22:29:33Z) - Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition [73.43121650616804]
単一のRGB画像を複数の意味的不整合RGBA層に分解するエンドツーエンド拡散モデルである textbfQwen-Image-Layered を提案する。
本手法は,分解品質の既存手法を大幅に上回り,一貫した画像編集のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-12-17T17:12:42Z) - LayeringDiff: Layered Image Synthesis via Generation, then Disassembly with Generative Knowledge [14.481577976493236]
LayeringDiffは、階層化されたイメージを合成するための新しいパイプラインである。
合成イメージからレイヤを抽出することで、スクラッチから生成するのではなく、大規模なトレーニングの必要性を回避できる。
実効的な層分解のために,前景層と背景層を推定する前に,大規模事前学習型生成法を適用する。
論文 参考訳(メタデータ) (2025-01-02T11:18:25Z) - Generative Image Layer Decomposition with Visual Effects [49.75021036203426]
LayerDecompは、イメージ層分解のための生成フレームワークである。
清潔な背景と、忠実に保存された視覚効果を持つ高品質な透明な前景を作り出す。
本手法は,オブジェクト除去や空間編集作業において,既存の手法よりも優れた分解特性を実現する。
論文 参考訳(メタデータ) (2024-11-26T20:26:49Z) - ComAlign: Compositional Alignment in Vision-Language Models [2.3250871476216814]
コンポジションアライメント(ComAlign)を導入し、テキストと画像コンポーネントのより正確な対応を見出す。
本手法は, テキストのモダリティから抽出した構成構造も画像のモダリティに残さなければならないことを強調する。
私たちは、小さなデータセットを使用して、既存のビジュアルおよび言語エンコーダの上に横たわる軽量ネットワークをトレーニングします。
論文 参考訳(メタデータ) (2024-09-12T16:46:41Z) - LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model [70.14953942532621]
層共同拡散モデルであるLayerDiffは、テキスト誘導、多層化、構成可能な画像合成のために設計されている。
本モデルでは,従来の全画像生成手法に匹敵する性能で,高品質な多層画像を生成することができる。
LayerDiffは、レイヤ固有の画像編集やスタイル転送など、幅広いコントロール可能な生成アプリケーションを可能にする。
論文 参考訳(メタデータ) (2024-03-18T16:28:28Z) - Collage Diffusion [17.660410448312717]
Collage Diffusionは入力層を調和させ、オブジェクトを一緒にフィットさせる。
我々は,各層ごとの特殊テキスト表現を学習することで,入力層の重要な視覚特性を保存する。
Collage Diffusionは、望まれるオブジェクト特性を以前のアプローチよりも良く維持する、グローバルに調和した画像を生成する。
論文 参考訳(メタデータ) (2023-03-01T06:35:42Z) - DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis [55.788772366325105]
本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。
人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
論文 参考訳(メタデータ) (2021-08-27T07:20:34Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。