論文の概要: LCUDiff: Latent Capacity Upgrade Diffusion for Faithful Human Body Restoration
- arxiv url: http://arxiv.org/abs/2602.04406v1
- Date: Wed, 04 Feb 2026 10:37:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.481069
- Title: LCUDiff: Latent Capacity Upgrade Diffusion for Faithful Human Body Restoration
- Title(参考訳): LCUDiff : 忠実な人体修復のための潜伏容量アップグレード拡散
- Authors: Jue Gong, Zihan Zhou, Jingkai Wang, Shu Li, Libo Liu, Jianliang Lan, Yulun Zhang,
- Abstract要約: 劣化した人中心のイメージを復元する既存の方法は、しばしば不十分な忠実さに苦しむ。
そこで我々はLCUDiffを提案する。LCUDiffは訓練済みの潜伏拡散モデルをアップグレードする安定なワンステップフレームワークである。
合成および実世界のデータセットの実験は、より高い忠実度と少ないアーティファクトによる競争結果を示している。
- 参考スコア(独自算出の注目度): 23.264518366939825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing methods for restoring degraded human-centric images often struggle with insufficient fidelity, particularly in human body restoration (HBR). Recent diffusion-based restoration methods commonly adapt pre-trained text-to-image diffusion models, where the variational autoencoder (VAE) can significantly bottleneck restoration fidelity. We propose LCUDiff, a stable one-step framework that upgrades a pre-trained latent diffusion model from the 4-channel latent space to the 16-channel latent space. For VAE fine-tuning, channel splitting distillation (CSD) is used to keep the first four channels aligned with pre-trained priors while allocating the additional channels to effectively encode high-frequency details. We further design prior-preserving adaptation (PPA) to smoothly bridge the mismatch between 4-channel diffusion backbones and the higher-dimensional 16-channel latent. In addition, we propose a decoder router (DeR) for per-sample decoder routing using restoration-quality score annotations, which improves visual quality across diverse conditions. Experiments on synthetic and real-world datasets show competitive results with higher fidelity and fewer artifacts under mild degradations, while preserving one-step efficiency. The code and model will be at https://github.com/gobunu/LCUDiff.
- Abstract(参考訳): 既存のヒト中心画像の復元方法は、特に人体修復(HBR)において、不完全性に苦しむことが多い。
近年の拡散法に基づく復元法は、可変オートエンコーダ(VAE)が復元の忠実さを著しく損なうような、事前訓練されたテキスト・ツー・イメージ拡散モデルに適応している。
LCUDiffは,4チャネル潜在空間から16チャネル潜在空間へ事前学習した潜在拡散モデルをアップグレードする安定なワンステップフレームワークである。
VAE微調整では、チャネル分割蒸留 (CSD) は、事前訓練された前の4つのチャネルをアロケートし、追加のチャネルをアロケートし、高周波の詳細を効果的にエンコードするために用いられる。
さらに,4チャネル拡散バックボーンと高次元16チャネル潜伏材とのミスマッチを円滑に橋渡しする事前保存適応(PPA)を設計する。
さらに,復調スコアアノテーションを用いたサンプル単位のデコーダルーティングのためのデコーダルータ(DeR)を提案する。
合成および実世界のデータセットの実験は、1段階の効率を維持しながら、高い忠実度と穏やかな劣化下でのアーティファクトの少ない競争結果を示している。
コードとモデルはhttps://github.com/gobunu/LCUDiffにある。
関連論文リスト
- OSCAR: One-Step Diffusion Codec Across Multiple Bit-rates [39.746866725267516]
事前訓練された潜伏拡散モデルでは、画像圧縮が失われる可能性が強い。
我々はOSCARと呼ばれる複数のビットレートにまたがる1ステップ拡散を提案する。
実験により、OSCARは量的および視覚的品質の指標において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-05-22T00:14:12Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。