論文の概要: Realism Control One-step Diffusion for Real-World Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2509.10122v1
- Date: Fri, 12 Sep 2025 10:32:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.051167
- Title: Realism Control One-step Diffusion for Real-World Image Super-Resolution
- Title(参考訳): 実世界の超解像のための1ステップ拡散のリアリズム制御
- Authors: Zongliang Wu, Siming Zheng, Peng-Tao Jiang, Xin Yuan,
- Abstract要約: 本稿では,リアルタイムISRのためのリアルタイム制御一段階拡散(RCOD)フレームワークを提案する。
RCODはノイズ予測フェーズにおいて、忠実現実主義のトレードオフを明示的に制御する。
本手法は,計算効率を維持しつつ,優れた忠実度と知覚品質を実現する。
- 参考スコア(独自算出の注目度): 21.13930153613271
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained diffusion models have shown great potential in real-world image super-resolution (Real-ISR) tasks by enabling high-resolution reconstructions. While one-step diffusion (OSD) methods significantly improve efficiency compared to traditional multi-step approaches, they still have limitations in balancing fidelity and realism across diverse scenarios. Since the OSDs for SR are usually trained or distilled by a single timestep, they lack flexible control mechanisms to adaptively prioritize these competing objectives, which are inherently manageable in multi-step methods through adjusting sampling steps. To address this challenge, we propose a Realism Controlled One-step Diffusion (RCOD) framework for Real-ISR. RCOD provides a latent domain grouping strategy that enables explicit control over fidelity-realism trade-offs during the noise prediction phase with minimal training paradigm modifications and original training data. A degradation-aware sampling strategy is also introduced to align distillation regularization with the grouping strategy and enhance the controlling of trade-offs. Moreover, a visual prompt injection module is used to replace conventional text prompts with degradation-aware visual tokens, enhancing both restoration accuracy and semantic consistency. Our method achieves superior fidelity and perceptual quality while maintaining computational efficiency. Extensive experiments demonstrate that RCOD outperforms state-of-the-art OSD methods in both quantitative metrics and visual qualities, with flexible realism control capabilities in the inference stage. The code will be released.
- Abstract(参考訳): 事前学習した拡散モデルは、高解像度再構成を可能にすることで、現実世界の画像超解像(Real-ISR)タスクに大きな可能性を示している。
一段階拡散(OSD)法は従来の多段階アプローチと比較して効率を著しく改善するが、多種多様なシナリオにおける忠実さとリアリズムのバランスには限界がある。
SRのOSDは通常、単一の時間ステップで訓練または蒸留されるため、これらの競合する目的を適応的に優先順位付けするための柔軟な制御機構が欠如している。
この課題に対処するため、我々はReal-ISRのためのRealism Controlled One-step Diffusion (RCOD)フレームワークを提案する。
RCODは、最小限のトレーニングパラダイム修正とオリジナルのトレーニングデータを用いて、ノイズ予測フェーズにおいて、忠実現実主義のトレードオフを明示的に制御できる潜在ドメイングループ戦略を提供する。
また, 蒸留正則化をグループ化戦略と整合させ, トレードオフの制御を強化するため, 劣化を考慮したサンプリング戦略も導入した。
さらに、ビジュアルプロンプトインジェクションモジュールは、従来のテキストプロンプトを分解対応のビジュアルトークンに置き換え、復元精度とセマンティック一貫性を向上する。
本手法は,計算効率を維持しつつ,優れた忠実度と知覚品質を実現する。
大規模実験により、RCODは定量的メトリクスと視覚的品質の両方において最先端のOSD法より優れており、推論段階ではフレキシブルなリアリズム制御能力があることが示された。
コードはリリースされます。
関連論文リスト
- Adaptive Residual-Update Steering for Low-Overhead Hallucination Mitigation in Large Vision Language Models [13.32858759983739]
LVLM(Large Vision-Language Models)は、しばしばオブジェクト幻覚に悩まされ、視覚入力と矛盾するテキストを生成する。
この問題を緩和するための既存の推論時間の介入は、難しいトレードオフをもたらします。
本稿では,LVLMを視覚的に生成するフレームワークであるResidual-Update Directed Decoding Regulation(RUDDER)を提案する。
論文 参考訳(メタデータ) (2025-11-13T13:29:38Z) - Boosting Fidelity for Pre-Trained-Diffusion-Based Low-Light Image Enhancement via Condition Refinement [63.54516423266521]
事前学習拡散ベース(PTDB)法は、しばしばコンテンツ忠実さを犠牲にして知覚的リアリズムを高める。
本稿では,事前学習した拡散モデルにおける条件付けのための新しい最適化手法を提案する。
我々のアプローチはプラグアンドプレイであり、より効率的な制御を提供するために既存の拡散ネットワークにシームレスに統合される。
論文 参考訳(メタデータ) (2025-10-20T02:40:06Z) - ScaleWeaver: Weaving Efficient Controllable T2I Generation with Multi-Scale Reference Attention [86.93601565563954]
ScaleWeaverは、高度な視覚的自己回帰(VAR)モデルに基づいて、高忠実で制御可能な生成を実現するために設計されたフレームワークである。
提案された参照注意モジュールは image$rightarrow$condition から不要な注意を排除し、計算コストを削減している。
実験によると、ScaleWeaverは、拡散ベースの方法よりも優れた効率を実現しつつ、高品質な生成と正確な制御を提供する。
論文 参考訳(メタデータ) (2025-10-16T17:00:59Z) - Efficient Conditional Generation on Scale-based Visual Autoregressive Models [26.81493253536486]
効率的な制御モデル(英語: Efficient Control Model、ECM)は、分散アーキテクチャを介して制御信号を導入する軽量制御モジュールを備えたプラグイン・アンド・プレイフレームワークである。
ECMは、リアルタイムに生成されたトークンと、その限られた容量の利用を最大化するために設計された共有フィードフォワードネットワーク(FFN)を用いて、条件付き機能を洗練する。
提案手法は,既存のベースラインを越えつつ,トレーニングと推論の効率を大幅に向上させるとともに,画像生成に対する高忠実かつ多様な制御を実現する。
論文 参考訳(メタデータ) (2025-10-07T06:27:03Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Degradation-Guided One-Step Image Super-Resolution with Diffusion Priors [75.24313405671433]
拡散に基づく画像超解像法 (SR) は、事前訓練された大規模なテキスト・画像拡散モデルを先行として活用することにより、顕著な成功を収めた。
本稿では,拡散型SR手法の効率問題に対処する新しい一段階SRモデルを提案する。
既存の微調整戦略とは異なり、SR専用の劣化誘導低ランク適応 (LoRA) モジュールを設計した。
論文 参考訳(メタデータ) (2024-09-25T16:15:21Z) - AGLLDiff: Guiding Diffusion Models Towards Unsupervised Training-free Real-world Low-light Image Enhancement [37.274077278901494]
本稿では,AGLLDiff (Atribute Guidance Diffusion framework) を提案する。
AGLLDiffはパラダイムをシフトし、通常光画像の露出、構造、色などの望ましい属性をモデル化する。
我々の手法は、歪みベースのメトリクスと知覚ベースのメトリクスの点で、現在の非教師なしのLIEメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-07-20T15:17:48Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。