論文の概要: Iterative Token Evaluation and Refinement for Real-World
Super-Resolution
- arxiv url: http://arxiv.org/abs/2312.05616v1
- Date: Sat, 9 Dec 2023 17:07:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 19:49:15.709028
- Title: Iterative Token Evaluation and Refinement for Real-World
Super-Resolution
- Title(参考訳): 実世界の超解像のための反復的トークン評価と改良
- Authors: Chaofeng Chen, Shangchen Zhou, Liang Liao, Haoning Wu, Wenxiu Sun,
Qiong Yan, Weisi Lin
- Abstract要約: 実世界の画像超解像(RWSR)は、低品質(LQ)画像が複雑で未同定の劣化を起こすため、長年にわたる問題である。
本稿では,RWSRのための反復的トークン評価・リファインメントフレームワークを提案する。
ITERはGAN(Generative Adversarial Networks)よりも訓練が容易であり,連続拡散モデルよりも効率的であることを示す。
- 参考スコア(独自算出の注目度): 77.74289677520508
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Real-world image super-resolution (RWSR) is a long-standing problem as
low-quality (LQ) images often have complex and unidentified degradations.
Existing methods such as Generative Adversarial Networks (GANs) or continuous
diffusion models present their own issues including GANs being difficult to
train while continuous diffusion models requiring numerous inference steps. In
this paper, we propose an Iterative Token Evaluation and Refinement (ITER)
framework for RWSR, which utilizes a discrete diffusion model operating in the
discrete token representation space, i.e., indexes of features extracted from a
VQGAN codebook pre-trained with high-quality (HQ) images. We show that ITER is
easier to train than GANs and more efficient than continuous diffusion models.
Specifically, we divide RWSR into two sub-tasks, i.e., distortion removal and
texture generation. Distortion removal involves simple HQ token prediction with
LQ images, while texture generation uses a discrete diffusion model to
iteratively refine the distortion removal output with a token refinement
network. In particular, we propose to include a token evaluation network in the
discrete diffusion process. It learns to evaluate which tokens are good
restorations and helps to improve the iterative refinement results. Moreover,
the evaluation network can first check status of the distortion removal output
and then adaptively select total refinement steps needed, thereby maintaining a
good balance between distortion removal and texture generation. Extensive
experimental results show that ITER is easy to train and performs well within
just 8 iterative steps. Our codes will be available publicly.
- Abstract(参考訳): 実世界の画像超解像(RWSR)は、低品質(LQ)画像が複雑で未同定の劣化を起こすため、長年にわたる問題である。
GAN(Generative Adversarial Networks)や連続拡散モデルといった既存の手法では、多くの推論ステップを必要とする連続拡散モデルにおいて、GANの訓練が困難であるなど、独自の問題がある。
本稿では、離散トークン表現空間で動作する離散拡散モデル、すなわち高品質(HQ)画像で事前訓練されたVQGANコードブックから抽出された特徴のインデックスを利用するRWSRのための反復トークン評価・再定義(ITER)フレームワークを提案する。
ITER は GAN よりも訓練が容易であり,連続拡散モデルよりも効率的であることを示す。
具体的には,RWSRを2つのサブタスク,すなわち歪み除去とテクスチャ生成に分割する。
歪み除去はlq画像による単純なhqトークン予測を伴い、テクスチャ生成は離散拡散モデルを用いてトークンリファインメントネットワークを用いて歪み除去出力を反復的に洗練する。
特に,離散拡散過程にトークン評価ネットワークを含めることを提案する。
どのトークンが良い復元であるかを評価することを学び、反復的な改善結果を改善するのに役立ちます。
さらに、評価ネットワークは、まず歪み除去出力の状態をチェックし、必要な全精細ステップを適応的に選択することにより、歪み除去とテクスチャ生成のバランスを良好に維持することができる。
大規模な実験結果から、ITERは訓練が容易で、わずか8ステップでうまく機能することがわかった。
私たちのコードは公開されます。
関連論文リスト
- Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - One-Step Effective Diffusion Network for Real-World Image Super-Resolution [11.326598938246558]
本稿では,Real-ISR問題に対する1ステップの効果的な拡散ネットワーク,すなわちOSEDiffを提案する。
トレーニング可能な層で事前学習した拡散ネットワークを微調整し、複雑な画像劣化に適応する。
我々のOSEDiffモデルは1つの拡散ステップでHQイメージを効率よく効果的に生成できる。
論文 参考訳(メタデータ) (2024-06-12T13:10:31Z) - SinSR: Diffusion-Based Image Super-Resolution in a Single Step [119.18813219518042]
拡散モデルに基づく超解像(SR)法は有望な結果を示す。
しかし、それらの実践的応用は、必要な推論ステップのかなりの数によって妨げられている。
本稿では,SinSRという単一ステップのSR生成を実現するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T16:21:29Z) - Deep Equilibrium Diffusion Restoration with Parallel Sampling [120.15039525209106]
拡散モデルに基づく画像復元(IR)は、拡散モデルを用いて劣化した画像から高品質な(本社)画像を復元し、有望な性能を達成することを目的としている。
既存のほとんどの手法では、HQイメージをステップバイステップで復元するために長いシリアルサンプリングチェーンが必要であるため、高価なサンプリング時間と高い計算コストがかかる。
本研究では,拡散モデルに基づくIRモデルを異なる視点,すなわちDeqIRと呼ばれるDeQ(Deep equilibrium)固定点系で再考することを目的とする。
論文 参考訳(メタデータ) (2023-11-20T08:27:56Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Frequency Compensated Diffusion Model for Real-scene Dehazing [6.105813272271171]
本研究では,実ヘイズへの一般化を改善する条件付き拡散モデルに基づく脱ヘイズフレームワークについて考察する。
提案手法は, 実世界の画像において, 最先端の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2023-08-21T06:50:44Z) - Learning A Coarse-to-Fine Diffusion Transformer for Image Restoration [39.071637725773314]
画像復元のための粗大な拡散変換器(C2F-DFT)を提案する。
C2F-DFTは拡散自己注意(DFSA)と拡散フィードフォワードネットワーク(DFN)を含んでいる
粗い訓練段階において,我々のC2F-DFTはノイズを推定し,サンプリングアルゴリズムにより最終クリーン画像を生成する。
論文 参考訳(メタデータ) (2023-08-17T01:59:59Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Global Context with Discrete Diffusion in Vector Quantised Modelling for
Image Generation [19.156223720614186]
ベクトル量子変分オートエンコーダと自己回帰モデルとを生成部として統合することにより、画像生成における高品質な結果が得られる。
本稿では,VQ-VAEからのコンテンツリッチな離散視覚コードブックの助けを借りて,この離散拡散モデルにより,グローバルな文脈で高忠実度画像を生成することができることを示す。
論文 参考訳(メタデータ) (2021-12-03T09:09:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。