論文の概要: Realism Control One-step Diffusion for Real-World Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2509.10122v1
- Date: Fri, 12 Sep 2025 10:32:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.051167
- Title: Realism Control One-step Diffusion for Real-World Image Super-Resolution
- Title(参考訳): 実世界の超解像のための1ステップ拡散のリアリズム制御
- Authors: Zongliang Wu, Siming Zheng, Peng-Tao Jiang, Xin Yuan,
- Abstract要約: 本稿では,リアルタイムISRのためのリアルタイム制御一段階拡散(RCOD)フレームワークを提案する。
RCODはノイズ予測フェーズにおいて、忠実現実主義のトレードオフを明示的に制御する。
本手法は,計算効率を維持しつつ,優れた忠実度と知覚品質を実現する。
- 参考スコア(独自算出の注目度): 21.13930153613271
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained diffusion models have shown great potential in real-world image super-resolution (Real-ISR) tasks by enabling high-resolution reconstructions. While one-step diffusion (OSD) methods significantly improve efficiency compared to traditional multi-step approaches, they still have limitations in balancing fidelity and realism across diverse scenarios. Since the OSDs for SR are usually trained or distilled by a single timestep, they lack flexible control mechanisms to adaptively prioritize these competing objectives, which are inherently manageable in multi-step methods through adjusting sampling steps. To address this challenge, we propose a Realism Controlled One-step Diffusion (RCOD) framework for Real-ISR. RCOD provides a latent domain grouping strategy that enables explicit control over fidelity-realism trade-offs during the noise prediction phase with minimal training paradigm modifications and original training data. A degradation-aware sampling strategy is also introduced to align distillation regularization with the grouping strategy and enhance the controlling of trade-offs. Moreover, a visual prompt injection module is used to replace conventional text prompts with degradation-aware visual tokens, enhancing both restoration accuracy and semantic consistency. Our method achieves superior fidelity and perceptual quality while maintaining computational efficiency. Extensive experiments demonstrate that RCOD outperforms state-of-the-art OSD methods in both quantitative metrics and visual qualities, with flexible realism control capabilities in the inference stage. The code will be released.
- Abstract(参考訳): 事前学習した拡散モデルは、高解像度再構成を可能にすることで、現実世界の画像超解像(Real-ISR)タスクに大きな可能性を示している。
一段階拡散(OSD)法は従来の多段階アプローチと比較して効率を著しく改善するが、多種多様なシナリオにおける忠実さとリアリズムのバランスには限界がある。
SRのOSDは通常、単一の時間ステップで訓練または蒸留されるため、これらの競合する目的を適応的に優先順位付けするための柔軟な制御機構が欠如している。
この課題に対処するため、我々はReal-ISRのためのRealism Controlled One-step Diffusion (RCOD)フレームワークを提案する。
RCODは、最小限のトレーニングパラダイム修正とオリジナルのトレーニングデータを用いて、ノイズ予測フェーズにおいて、忠実現実主義のトレードオフを明示的に制御できる潜在ドメイングループ戦略を提供する。
また, 蒸留正則化をグループ化戦略と整合させ, トレードオフの制御を強化するため, 劣化を考慮したサンプリング戦略も導入した。
さらに、ビジュアルプロンプトインジェクションモジュールは、従来のテキストプロンプトを分解対応のビジュアルトークンに置き換え、復元精度とセマンティック一貫性を向上する。
本手法は,計算効率を維持しつつ,優れた忠実度と知覚品質を実現する。
大規模実験により、RCODは定量的メトリクスと視覚的品質の両方において最先端のOSD法より優れており、推論段階ではフレキシブルなリアリズム制御能力があることが示された。
コードはリリースされます。
関連論文リスト
- One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Degradation-Guided One-Step Image Super-Resolution with Diffusion Priors [75.24313405671433]
拡散に基づく画像超解像法 (SR) は、事前訓練された大規模なテキスト・画像拡散モデルを先行として活用することにより、顕著な成功を収めた。
本稿では,拡散型SR手法の効率問題に対処する新しい一段階SRモデルを提案する。
既存の微調整戦略とは異なり、SR専用の劣化誘導低ランク適応 (LoRA) モジュールを設計した。
論文 参考訳(メタデータ) (2024-09-25T16:15:21Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。