論文の概要: HAODiff: Human-Aware One-Step Diffusion via Dual-Prompt Guidance
- arxiv url: http://arxiv.org/abs/2505.19742v1
- Date: Mon, 26 May 2025 09:24:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.323769
- Title: HAODiff: Human-Aware One-Step Diffusion via Dual-Prompt Guidance
- Title(参考訳): HAODiff:デュアルプロンプト誘導による人間を意識したワンステップ拡散
- Authors: Jue Gong, Tingyu Yang, Jingkai Wang, Zheng Chen, Xing Liu, Hong Gu, Yulun Zhang, Xiaokang Yang,
- Abstract要約: 人中心画像は、伝達中に重篤な遺伝子劣化に悩まされ、ヒトの運動のぼかし(HMB)に起因することが多い
我々は,HMBと汎用雑音の共存をシミュレートした分解パイプラインを設計し,提案したHAODiffをトレーニングするための合成劣化データを生成する。
公平な評価のために,ノイズとHMBの併用に富んだベンチマークMPII-Testを導入する。
- 参考スコア(独自算出の注目度): 71.5820853722963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-centered images often suffer from severe generic degradation during transmission and are prone to human motion blur (HMB), making restoration challenging. Existing research lacks sufficient focus on these issues, as both problems often coexist in practice. To address this, we design a degradation pipeline that simulates the coexistence of HMB and generic noise, generating synthetic degraded data to train our proposed HAODiff, a human-aware one-step diffusion. Specifically, we propose a triple-branch dual-prompt guidance (DPG), which leverages high-quality images, residual noise (LQ minus HQ), and HMB segmentation masks as training targets. It produces a positive-negative prompt pair for classifier-free guidance (CFG) in a single diffusion step. The resulting adaptive dual prompts let HAODiff exploit CFG more effectively, boosting robustness against diverse degradations. For fair evaluation, we introduce MPII-Test, a benchmark rich in combined noise and HMB cases. Extensive experiments show that our HAODiff surpasses existing state-of-the-art (SOTA) methods in terms of both quantitative metrics and visual quality on synthetic and real-world datasets, including our introduced MPII-Test. Code is available at: https://github.com/gobunu/HAODiff.
- Abstract(参考訳): 人間中心の画像は、伝送中に深刻な遺伝子劣化に悩まされ、人間の動きのぼかし(HMB)が原因で復元が困難になることが多い。
既存の研究はこれらの問題に十分な焦点をあてていない。
そこで我々は,HMBと一般雑音の共存をシミュレートした分解パイプラインを設計し,人工劣化データを生成し,人間の認識した一段階拡散であるHAODiffを訓練する。
具体的には、高品質な画像、残留雑音(LQ最小本社)、HMBセグメンテーションマスクをトレーニングターゲットとして利用する3分岐デュアルプロンプトガイダンス(DPG)を提案する。
単一の拡散段階において、分類器フリーガイダンス(CFG)のための正負のプロンプトペアを生成する。
その結果、適応的な二重プロンプトにより、HAODiffはCFGをより効果的に利用し、多様な劣化に対する堅牢性を高めた。
公平な評価のために,ノイズとHMBの併用に富んだベンチマークMPII-Testを導入する。
大規模な実験により、我々のHAODiffは既存の最先端(SOTA)手法を、MPII-Testを含む合成および実世界のデータセットにおける定量的メトリクスと視覚的品質の両方の観点から上回っていることがわかった。
コードは、https://github.com/gobunu/HAODiff.comで入手できる。
関連論文リスト
- OSCAR: One-Step Diffusion Codec Across Multiple Bit-rates [52.65036099944483]
事前訓練された潜伏拡散モデルでは、画像圧縮が失われる可能性が強い。
既存の手法のほとんどは、ランダムノイズから反復的にデノイングすることで、イメージを再構成する。
我々はOSCARと呼ばれる複数のビットレートにまたがる1ステップ拡散を提案する。
論文 参考訳(メタデータ) (2025-05-22T00:14:12Z) - DiffMAC: Diffusion Manifold Hallucination Correction for High Generalization Blind Face Restoration [62.44659039265439]
視覚障害者の視力回復を支援するための拡散情報拡散フレームワークを提案する。
DiffMACは、多種多様な劣化シーンと異種ドメインにおいて、高度な顔の復元を実現する。
結果は,最先端手法よりもDiffMACの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-03-15T08:44:15Z) - PSDiff: Diffusion Model for Person Search with Iterative and Collaborative Refinement [59.6260680005195]
本稿では,拡散モデルであるPSDiffに基づく新しいPerson Searchフレームワークを提案する。
PSDiffは、ノイズの多いボックスとReID埋め込みから地上の真実へのデュアルデノケーションプロセスとして検索する人を定式化する。
新しいパラダイムに従って、我々は、反復的かつ協調的な方法で検出とReIDサブタスクを最適化する新しいコラボレーティブ・デノナイジング・レイヤ(CDL)を設計する。
論文 参考訳(メタデータ) (2023-09-20T08:16:39Z) - DuDGAN: Improving Class-Conditional GANs via Dual-Diffusion [2.458437232470188]
GAN(Generative Adversarial Network)を用いたクラス条件画像生成について,様々な手法を用いて検討した。
本稿では,DuDGANと呼ばれる2次元拡散型ノイズ注入法を取り入れたGANを用いたクラス条件画像生成手法を提案する。
提案手法は,画像生成のための現状条件付きGANモデルよりも性能的に優れている。
論文 参考訳(メタデータ) (2023-05-24T07:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。