論文の概要: Your Latent Mask is Wrong: Pixel-Equivalent Latent Compositing for Diffusion Models
- arxiv url: http://arxiv.org/abs/2512.05198v1
- Date: Thu, 04 Dec 2025 19:07:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.781907
- Title: Your Latent Mask is Wrong: Pixel-Equivalent Latent Compositing for Diffusion Models
- Title(参考訳): あなたの潜伏マスクは間違っている: 拡散モデルのための画素等価潜伏合成
- Authors: Rowan Bradbury, Dazhi Zhong,
- Abstract要約: 拡散モデルにおける塗料の塗布は、なおもダウンサンプリングマスクの下で線形補間されたVAE潜水剤にほぼ普遍的に依存している。
画像レイトを合成する鍵となる原理として,Pixel-Equivalent Latent compresstingを提案する。
そこで我々は,1チャネルあたりのブレンド重量を予測する変圧器DecFormerを導入し,マスク一貫性の潜伏核融合を実現するために1次元の残差補正を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Latent inpainting in diffusion models still relies almost universally on linearly interpolating VAE latents under a downsampled mask. We propose a key principle for compositing image latents: Pixel-Equivalent Latent Compositing (PELC). An equivalent latent compositor should be the same as compositing in pixel space. This principle enables full-resolution mask control and true soft-edge alpha compositing, even though VAEs compress images 8x spatially. Modern VAEs capture global context beyond patch-aligned local structure, so linear latent blending cannot be pixel-equivalent: it produces large artifacts at mask seams and global degradation and color shifts. We introduce DecFormer, a 7.7M-parameter transformer that predicts per-channel blend weights and an off-manifold residual correction to realize mask-consistent latent fusion. DecFormer is trained so that decoding after fusion matches pixel-space alpha compositing, is plug-compatible with existing diffusion pipelines, requires no backbone finetuning and adds only 0.07% of FLUX.1-Dev's parameters and 3.5% FLOP overhead. On the FLUX.1 family, DecFormer restores global color consistency, soft-mask support, sharp boundaries, and high-fidelity masking, reducing error metrics around edges by up to 53% over standard mask interpolation. Used as an inpainting prior, a lightweight LoRA on FLUX.1-Dev with DecFormer achieves fidelity comparable to FLUX.1-Fill, a fully finetuned inpainting model. While we focus on inpainting, PELC is a general recipe for pixel-equivalent latent editing, as we demonstrate on a complex color-correction task.
- Abstract(参考訳): 拡散モデルにおける潜伏塗料の塗布は、なおもダウンサンプリングマスクの下で線形補間されたVAE潜伏剤にほぼ普遍的に依存している。
画像潜在詞を構成する重要な原理として,Pixel-Equivalent Latent Compositing (PELC)を提案する。
同等の潜伏合成器は、画素空間における合成と同じである。
この原理は、VAEが空間的に8倍の圧縮画像を圧縮しても、フルレゾリューションマスク制御と真のソフトエッジアルファ合成を可能にする。
現代のVAEはパッチアラインな局所構造を超えてグローバルなコンテキストを捉えているので、線形の潜水ブレンディングはピクセル等価ではない。
我々は、7.7Mパラメータ変換器であるDecFormerを導入し、チャネルごとのブレンド重みを予測し、マスク一貫性の潜伏核融合を実現する。
DecFormerは、融合後のデコードがピクセル空間のアルファ合成と一致し、既存の拡散パイプラインとプラグイン互換であり、バックボーンの微調整を必要とせず、FLUX.1-Devのパラメータの0.07%と3.5%のFLOPオーバーヘッドを追加するように訓練されている。
FLUX.1ファミリでは、グローバルな色の一貫性、ソフトマスクのサポート、シャープな境界、高忠実度マスキングを復元し、標準的なマスク補間よりも最大53%エラーメトリクスを削減している。
DecFormerを使ったFLUX.1-Dev上の軽量のLoRAは、完全に微調整されたインペイントモデルであるFLUX.1-Fillに匹敵する忠実性を達成している。
塗り絵に焦点を合わせながら、PELCは複雑な色補正タスクで示すように、ピクセル等価な潜時編集の一般的なレシピである。
関連論文リスト
- PixelDiT: Pixel Diffusion Transformers for Image Generation [48.456815413366535]
PixelDiTはDiffusion Transformers用の単一ステージのエンドツーエンドモデルである。
オートエンコーダの必要性を排除し、ピクセル空間内で拡散過程を直接学習する。
ImageNet 256x256で1.61 FIDを達成し、既存のピクセル生成モデルを大きく上回っている。
論文 参考訳(メタデータ) (2025-11-25T18:59:25Z) - DiffDecompose: Layer-Wise Decomposition of Alpha-Composited Images via Diffusion Transformers [85.1185656296496]
本稿では,DiffDecomposeについて述べる。DiffDecomposeは拡散トランスフォーマーをベースとしたフレームワークで,入力画像に条件付き可能な層分解を後部から学習する。
コードとデータセットは、論文の受理時に提供される。
論文 参考訳(メタデータ) (2025-05-24T16:08:04Z) - Lazy Diffusion Transformer for Interactive Image Editing [79.75128130739598]
部分的な画像更新を効率的に生成する新しい拡散変換器であるLazyDiffusionを導入する。
提案手法は,空白キャンバスや画像から,ユーザが局所的な画像修正のシーケンスを指定するインタラクティブな画像編集アプリケーションを対象としている。
論文 参考訳(メタデータ) (2024-04-18T17:59:27Z) - Towards Enhanced Image Inpainting: Mitigating Unwanted Object Insertion and Preserving Color Consistency [78.0488707697235]
ASUKA(Aigned Stable Inpainting with UnKnown Areas)と呼ばれるポストプロセッシングアプローチは、インパインティングモデルを改善する。
Masked Auto-Encoder (MAE) は、オブジェクト幻覚を緩和する。
ローカルタスクとしてラテント・ツー・イメージ・デコーディングを扱う特殊なVAEデコーダ。
論文 参考訳(メタデータ) (2023-12-08T05:08:06Z) - FRIH: Fine-grained Region-aware Image Harmonization [49.420765789360836]
我々は,FRIH(Fentral-Aware Image Harmonization)のための新しいグローバルな2段階フレームワークを提案する。
提案アルゴリズムは,軽量モデルを用いて,iHarmony4データセット(PSNRは38.19dB)上で最高の性能を実現する。
論文 参考訳(メタデータ) (2022-05-13T04:50:26Z) - RePaint: Inpainting using Denoising Diffusion Probabilistic Models [161.74792336127345]
Free-form Inpaintingは任意のバイナリマスクで指定された領域のイメージに新しいコンテンツを追加するタスクである。
RePaint: A Denoising Probabilistic Model (DDPM) を用いた塗装手法を提案する。
本手法は,標準的なマスクと極端マスクを用いて,顔と汎用画像の塗装の両面で検証する。
論文 参考訳(メタデータ) (2022-01-24T18:40:15Z) - Learning Pixel-Adaptive Weights for Portrait Photo Retouching [1.9843222704723809]
ポートレート写真リタッチ(Portrait photo retouching)は、人間の領域の優先度とグループレベルの一貫性を強調する写真リタッチタスクである。
本稿では,局所的なコンテキストキューをモデル化し,手直し品質を明示的に改善する。
PPR10Kデータセットの実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2021-12-07T07:23:42Z) - Deep Contrastive Patch-Based Subspace Learning for Camera Image Signal
Processing [5.678834480723395]
我々は、カメラISPを改良し、異質なアーティファクトに対して堅牢なパッチベースのローカルサブスペースディープニューラルネットワークを提案する。
Patch Subspace Learning Autoencoder (PSL-AE) と呼ぶ。
PSL-AEは、コントラスト学習によって、異なるアーティファクトタイプや歪みレベルを持つ、ノイズの多い第2クリーンイメージペアから抽出されたパッチを符号化する。
論文 参考訳(メタデータ) (2021-04-01T04:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。