論文の概要: One-Step Diffusion Transformer for Controllable Real-World Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2511.17138v3
- Date: Thu, 27 Nov 2025 03:58:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 13:46:31.761251
- Title: One-Step Diffusion Transformer for Controllable Real-World Image Super-Resolution
- Title(参考訳): 制御可能な実世界の超解像のためのワンステップ拡散変圧器
- Authors: Yushun Fang, Yuxiang Chen, Shibo Yin, Qiang Hu, Jiangchao Yao, Ya Zhang, Xiaoyun Zhang, Yanfeng Wang,
- Abstract要約: 本稿では,一段階拡散変換器であるODTSRについて述べる。
ODTSRは、制御性を高め、一段階の推論を達成するために、Fidelity-aware Adversarial Training (FAA)を採用している。
実験により,ODTSRは汎用Real-ISR上でのSOTA(State-of-the-art)性能を実現することが示された。
- 参考スコア(独自算出の注目度): 54.485573602613535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in diffusion-based real-world image super-resolution (Real-ISR) have demonstrated remarkable perceptual quality, yet the balance between fidelity and controllability remains a problem: multi-step diffusion-based methods suffer from generative diversity and randomness, resulting in low fidelity, while one-step methods lose control flexibility due to fidelity-specific finetuning. In this paper, we present ODTSR, a one-step diffusion transformer based on Qwen-Image that performs Real-ISR considering fidelity and controllability simultaneously: a newly introduced visual stream receives low-quality images (LQ) with adjustable noise (Control Noise), and the original visual stream receives LQs with consistent noise (Prior Noise), forming the Noise-hybrid Visual Stream (NVS) design. ODTSR further employs Fidelity-aware Adversarial Training (FAA) to enhance controllability and achieve one-step inference. Extensive experiments demonstrate that ODTSR not only achieves state-of-the-art (SOTA) performance on generic Real-ISR, but also enables prompt controllability on challenging scenarios such as real-world scene text image super-resolution (STISR) of Chinese characters without training on specific datasets. Codes are available at https://github.com/RedMediaTech/ODTSR.
- Abstract(参考訳): 拡散に基づく実世界の超解像(Real-ISR)の最近の進歩は、目覚しい品質を示しているが、フィデリティと制御可能性のバランスが問題となっている。
本稿では,Qwen-Imageをベースとした一段階拡散変換器であるODTSRを提案する。新たに導入されたビジュアルストリームは,調整可能なノイズ(コントロルノイズ)を持つ低品質画像(LQ)を受信し,元のビジュアルストリームは一貫したノイズ(Priorノイズ)を持つLQを受信し,ノイズハイブリッドビジュアルストリーム(NVS)設計を形成する。
ODTSRはさらに、制御性を高め、一段階の推論を達成するために、Fidelity-aware Adversarial Training (FAA)を採用している。
大規模な実験により、ODTSRは一般的なReal-ISR上での最先端(SOTA)のパフォーマンスを達成するだけでなく、特定のデータセットをトレーニングすることなく、漢字の現実のシーンテキスト画像超解像(STISR)のような難易度シナリオの迅速な制御を可能にした。
コードはhttps://github.com/RedMediaTech/ODTSRで公開されている。
関連論文リスト
- Realism Control One-step Diffusion for Real-World Image Super-Resolution [21.13930153613271]
本稿では,リアルタイムISRのためのリアルタイム制御一段階拡散(RCOD)フレームワークを提案する。
RCODはノイズ予測フェーズにおいて、忠実現実主義のトレードオフを明示的に制御する。
本手法は,計算効率を維持しつつ,優れた忠実度と知覚品質を実現する。
論文 参考訳(メタデータ) (2025-09-12T10:32:04Z) - One-Step Diffusion-based Real-World Image Super-Resolution with Visual Perception Distillation [53.24542646616045]
画像超解像(SR)生成に特化して設計された新しい視覚知覚拡散蒸留フレームワークであるVPD-SRを提案する。
VPD-SRは2つのコンポーネントから構成される: 明示的セマンティック・アウェア・スーパービジョン(ESS)と高周波知覚(HFP)損失。
提案したVPD-SRは,従来の最先端手法と教師モデルの両方と比較して,たった1ステップのサンプリングで優れた性能が得られる。
論文 参考訳(メタデータ) (2025-06-03T08:28:13Z) - SING: Semantic Image Communications using Null-Space and INN-Guided Diffusion Models [52.40011613324083]
近年, 無線画像伝送において, 共用音源チャネル符号化システム (DeepJSCC) が顕著な性能を発揮している。
既存の手法では、送信された画像とレシーバーの再構成されたバージョンとの間の歪みを最小限に抑えることに重点を置いており、しばしば知覚的品質を見落としている。
逆問題として,破損した再構成画像から高品質な画像の復元を定式化する新しいフレームワークであるSINGを提案する。
論文 参考訳(メタデータ) (2025-03-16T12:32:11Z) - Diffusion-Aided Joint Source Channel Coding For High Realism Wireless Image Transmission [24.372996233209854]
DiffJSCCは条件拡散復調法により高現実性画像を生成する新しいフレームワークである。
768x512ピクセルのコダック画像を3072のシンボルで再現できる。
論文 参考訳(メタデータ) (2024-04-27T00:12:13Z) - ICF-SRSR: Invertible scale-Conditional Function for Self-Supervised
Real-world Single Image Super-Resolution [60.90817228730133]
単一画像超解像(SISR)は、与えられた低解像度(LR)画像を高解像度(HR)にアップサンプリングすることを目的とした課題である。
近年のアプローチは、単純化されたダウンサンプリング演算子によって劣化したシミュレーションLR画像に基づいて訓練されている。
Invertible Scale-Conditional Function (ICF) を提案する。これは入力画像をスケールし、異なるスケール条件で元の入力を復元する。
論文 参考訳(メタデータ) (2023-07-24T12:42:45Z) - Blind Super-Resolution for Remote Sensing Images via Conditional
Stochastic Normalizing Flows [14.882417028542855]
本稿では、上記の問題に対処するために、正規化フロー(BlindSRSNF)に基づく新しいブラインドSRフレームワークを提案する。
BlindSRSNFは、低解像度(LR)画像が与えられた高解像度画像空間上の条件確率分布を、確率の変動境界を明示的に最適化することによって学習する。
提案アルゴリズムは,シミュレーションLRと実世界RSIの両方において,視覚的品質の優れたSR結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-14T12:37:32Z) - CVF-SID: Cyclic multi-Variate Function for Self-Supervised Image
Denoising by Disentangling Noise from Image [53.76319163746699]
そこで本研究では,CVF-SIDと呼ばれる,新しい,強力な自己監督型デノベーション手法を提案する。
CVF-SIDは、様々な自己教師付き損失項を活用することにより、入力からクリーンな画像とノイズマップを分離することができる。
最先端の自己監督型画像復調性能を達成し、既存のアプローチに匹敵する。
論文 参考訳(メタデータ) (2022-03-24T11:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。