論文の概要: DiffDecompose: Layer-Wise Decomposition of Alpha-Composited Images via Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2505.21541v1
- Date: Sat, 24 May 2025 16:08:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.142291
- Title: DiffDecompose: Layer-Wise Decomposition of Alpha-Composited Images via Diffusion Transformers
- Title(参考訳): DiffDecompose:拡散変換器によるアルファ合成画像の層幅分解
- Authors: Zitong Wang, Hang Zhao, Qianyu Zhou, Xuequan Lu, Xiangtai Li, Yiren Song,
- Abstract要約: 本稿では,DiffDecomposeについて述べる。DiffDecomposeは拡散トランスフォーマーをベースとしたフレームワークで,入力画像に条件付き可能な層分解を後部から学習する。
コードとデータセットは、論文の受理時に提供される。
- 参考スコア(独自算出の注目度): 47.53900656597612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have recently motivated great success in many generation tasks like object removal. Nevertheless, existing image decomposition methods struggle to disentangle semi-transparent or transparent layer occlusions due to mask prior dependencies, static object assumptions, and the lack of datasets. In this paper, we delve into a novel task: Layer-Wise Decomposition of Alpha-Composited Images, aiming to recover constituent layers from single overlapped images under the condition of semi-transparent/transparent alpha layer non-linear occlusion. To address challenges in layer ambiguity, generalization, and data scarcity, we first introduce AlphaBlend, the first large-scale and high-quality dataset for transparent and semi-transparent layer decomposition, supporting six real-world subtasks (e.g., translucent flare removal, semi-transparent cell decomposition, glassware decomposition). Building on this dataset, we present DiffDecompose, a diffusion Transformer-based framework that learns the posterior over possible layer decompositions conditioned on the input image, semantic prompts, and blending type. Rather than regressing alpha mattes directly, DiffDecompose performs In-Context Decomposition, enabling the model to predict one or multiple layers without per-layer supervision, and introduces Layer Position Encoding Cloning to maintain pixel-level correspondence across layers. Extensive experiments on the proposed AlphaBlend dataset and public LOGO dataset verify the effectiveness of DiffDecompose. The code and dataset will be available upon paper acceptance. Our code will be available at: https://github.com/Wangzt1121/DiffDecompose.
- Abstract(参考訳): 拡散モデルは最近、オブジェクト除去のような多くの世代タスクで大きな成功を動機付けている。
それでも、既存の画像分解手法では、依存関係のマスクや静的オブジェクトの仮定、データセットの欠如などにより、半透明層や透明層を排除できない。
本稿では, 半透明・透明なアルファ層非線形閉塞条件下での1重重畳画像から構成層を復元することを目的とした, アルファ合成画像の層幅分解(Layer-Wise Decomposition of Alpha-Composited Images)を行う。
層あいさ、一般化、データ不足の課題に対処するため、我々はまず、透明で半透明な層分解のための最初の大規模かつ高品質なデータセットであるAlphaBlendを紹介し、現実世界の6つのサブタスク(例えば、半透明な細胞分解、ガラス製品分解)をサポートする。
このデータセットに基づいてDiffDecomposeを提案する。DiffDecomposeは拡散トランスフォーマーをベースとしたフレームワークで、入力画像、セマンティックプロンプト、ブレンディングタイプに条件付の可能な層分解を学習する。
DiffDecomposeはアルファマットを直接回帰するのではなく、In-Context Decompositionを実行し、レイヤ単位の監視なしに1層ないし複数のレイヤを予測できるようにし、レイヤ間のピクセルレベルの対応を維持するためにレイヤ位置エンコードクローンを導入している。
提案したAlphaBlendデータセットと公開LOGOデータセットに関する大規模な実験により、DiffDecomposeの有効性が検証された。
コードとデータセットは、論文の受理時に提供される。
私たちのコードは、https://github.com/Wangzt1121/DiffDecompose.comで利用可能です。
関連論文リスト
- PrismLayers: Open Data for High-Quality Multi-Layer Transparent Image Generative Models [25.859278092788237]
オープンで超高忠実なPrismLayersデータセットは200K (20K) の多層透明画像で, 正確なアルファマットが得られた。
また、最新のテキスト・画像生成モデルの美学と一致する強力なオープンソース多層生成モデルART+も提供します。
論文 参考訳(メタデータ) (2025-05-28T16:09:33Z) - PSDiffusion: Harmonized Multi-Layer Image Generation via Layout and Appearance Alignment [24.964578950380947]
PSDiffusionは、同時多層テキスト・画像生成のための統合拡散フレームワークである。
我々のモデルは、1つのRGB背景と複数のRGBAフォアグラウンドを持つ多層画像を自動的に生成することができる。
本手法では,層状画像を並列かつ協調的に生成するグローバル層対話機構を提案する。
論文 参考訳(メタデータ) (2025-05-16T17:23:35Z) - LayeringDiff: Layered Image Synthesis via Generation, then Disassembly with Generative Knowledge [14.481577976493236]
LayeringDiffは、階層化されたイメージを合成するための新しいパイプラインである。
合成イメージからレイヤを抽出することで、スクラッチから生成するのではなく、大規模なトレーニングの必要性を回避できる。
実効的な層分解のために,前景層と背景層を推定する前に,大規模事前学習型生成法を適用する。
論文 参考訳(メタデータ) (2025-01-02T11:18:25Z) - Generative Image Layer Decomposition with Visual Effects [49.75021036203426]
LayerDecompは、イメージ層分解のための生成フレームワークである。
清潔な背景と、忠実に保存された視覚効果を持つ高品質な透明な前景を作り出す。
本手法は,オブジェクト除去や空間編集作業において,既存の手法よりも優れた分解特性を実現する。
論文 参考訳(メタデータ) (2024-11-26T20:26:49Z) - MaterialFusion: Enhancing Inverse Rendering with Material Diffusion Priors [67.74705555889336]
本稿では,テクスチャと材料特性に先立って2Dを組み込んだ,従来の3次元逆レンダリングパイプラインであるMaterialFusionを紹介する。
本稿では,2次元拡散モデルであるStableMaterialについて述べる。
種々の照明条件下で, 合成および実物体の4つのデータセット上でのMaterialFusionの照度特性を検証した。
論文 参考訳(メタデータ) (2024-09-23T17:59:06Z) - Neural Spline Fields for Burst Image Fusion and Layer Separation [40.9442467471977]
ニューラルスプライン場を用いた2層α合成画像とフローモデルを用いた多目的中間表現を提案する。
提案手法では, バースト画像を高分解能な再構成に融合し, 透過層と閉塞層に分解することができる。
後処理のステップや事前学習がないため、当社の一般化可能なモデルは、既存の専用イメージやマルチビューの障害物除去アプローチよりも優れています。
論文 参考訳(メタデータ) (2023-12-21T18:54:19Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - WALDO: Future Video Synthesis using Object Layer Decomposition and
Parametric Flow Prediction [82.79642869586587]
WALDOは、過去のビデオフレームを予測するための新しいアプローチである。
個々の画像は、オブジェクトマスクと小さなコントロールポイントのセットを組み合わせた複数の層に分解される。
レイヤ構造は、各ビデオ内のすべてのフレーム間で共有され、フレーム間の密接な接続を構築する。
論文 参考訳(メタデータ) (2022-11-25T18:59:46Z) - Occlusion-Aware Instance Segmentation via BiLayer Network Architectures [73.45922226843435]
本稿では,2層畳み込みネットワーク(BCNet)を提案する。このネットワークでは,トップ層がオブジェクト(オブオーバ)を検出し,ボトム層が部分的にオブオーバドされたインスタンス(オブオーバド)を推測する。
一般的な畳み込みネットワーク設計,すなわちFCN(Fully Convolutional Network)とGCN(Graph Convolutional Network)を用いた2層構造の有効性について検討する。
論文 参考訳(メタデータ) (2022-08-08T21:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。