論文の概要: RestoreVAR: Visual Autoregressive Generation for All-in-One Image Restoration
- arxiv url: http://arxiv.org/abs/2505.18047v1
- Date: Fri, 23 May 2025 15:52:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.207015
- Title: RestoreVAR: Visual Autoregressive Generation for All-in-One Image Restoration
- Title(参考訳): RestoreVAR:オールインワン画像復元のためのビジュアル自動回帰生成
- Authors: Sudarshan Rajagopalan, Kartik Narayan, Vishal M. Patel,
- Abstract要約: 潜時拡散モデル(LDM)はオールインワン画像復元法(AiOR)の知覚的品質を大幅に改善した。
これらの LDM ベースのフレームワークは反復的なデノゲーションプロセスによって推論が遅くなり、時間に敏感なアプリケーションでは実用的でない。
本稿では, AiOR に対する新しい生成手法を提案し, LDM モデルよりも高速な推論を達成しつつ, 復元性能において LDM モデルよりも優れることを示す。
- 参考スコア(独自算出の注目度): 27.307331773270676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of latent diffusion models (LDMs) such as Stable Diffusion has significantly improved the perceptual quality of All-in-One image Restoration (AiOR) methods, while also enhancing their generalization capabilities. However, these LDM-based frameworks suffer from slow inference due to their iterative denoising process, rendering them impractical for time-sensitive applications. To address this, we propose RestoreVAR, a novel generative approach for AiOR that significantly outperforms LDM-based models in restoration performance while achieving over $\mathbf{10\times}$ faster inference. RestoreVAR leverages visual autoregressive modeling (VAR), a recently introduced approach which performs scale-space autoregression for image generation. VAR achieves comparable performance to that of state-of-the-art diffusion transformers with drastically reduced computational costs. To optimally exploit these advantages of VAR for AiOR, we propose architectural modifications and improvements, including intricately designed cross-attention mechanisms and a latent-space refinement module, tailored for the AiOR task. Extensive experiments show that RestoreVAR achieves state-of-the-art performance among generative AiOR methods, while also exhibiting strong generalization capabilities.
- Abstract(参考訳): 安定拡散のような潜時拡散モデル(LDM)の使用により、オールインワン画像復元法(AiOR)の知覚的品質が向上し、一般化能力も向上した。
しかし、これらの LDM ベースのフレームワークは反復的な denoising プロセスによって推論が遅くなり、時間に敏感なアプリケーションでは実用的でない。
これを解決するために、AiORの新しい生成手法であるRestoreVARを提案する。これは、復元性能においてLDMベースのモデルを著しく上回り、$\mathbf{10\times}$より高速な推論を実現している。
RestoreVARは視覚的自己回帰モデリング(VAR)を利用する。
VARは、計算コストを大幅に削減した最先端の拡散変圧器に匹敵する性能を達成している。
AiORにおけるVARのこれらの利点を最適に活用するために,AiORタスク用に設計された複雑に設計されたクロスアテンション機構と潜在空間リファインメントモジュールを含むアーキテクチャ変更と改善を提案する。
大規模な実験により,RestoreVARは生成的AiOR手法の最先端性能を実現し,高い一般化能力を示した。
関連論文リスト
- Enhancing Variational Autoencoders with Smooth Robust Latent Encoding [54.74721202894622]
変分オートエンコーダ(VAE)は拡散に基づく生成モデルをスケールアップする上で重要な役割を果たしている。
Smooth Robust Latent VAEは、世代品質とロバスト性の両方を向上する、新しい対向トレーニングフレームワークである。
実験により、SRL-VAEは、Nightshade攻撃や画像編集攻撃に対して、画像再構成とテキスト誘導画像編集において、生成品質とロバスト性の両方を改善することが示された。
論文 参考訳(メタデータ) (2025-04-24T03:17:57Z) - ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration [75.0053551643052]
本稿では、高解像度画像復元のための効率性、スケーラビリティ、長距離モデリングを向上する新しいフレームワークZipIRを紹介する。
ZipIRは画像32xを圧縮する高度に圧縮された潜在表現を使用し、空間トークンの数を効果的に削減する。
ZipIRは既存の拡散ベースの手法を超越し、高度に劣化した入力からの高解像度画像の復元において、未整合の速度と品質を提供する。
論文 参考訳(メタデータ) (2025-04-11T14:49:52Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Navigating Image Restoration with VAR's Distribution Alignment Prior [6.0648320320309885]
新しい画像生成パラダイムであるVARは、次世代の予測アプローチを適用することで、生成品質の拡散モデルを上回る。
VAR内の複数スケールの潜在表現を復元として定式化し、繊細に設計されたVarFormerフレームワークを前進させる。
論文 参考訳(メタデータ) (2024-12-30T16:32:55Z) - RAP-SR: RestorAtion Prior Enhancement in Diffusion Models for Realistic Image Super-Resolution [36.137383171027615]
本稿では,Real-SRの事前学習拡散モデルにおける事前拡張手法であるRAP-SRを紹介する。
まず,QDAISP(Quality-Driven Aesthetic Image Selection Pipeline)を用いたHFAID(High-Fidelity Aesthetic Image dataset)を開発した。
第2に、復元優先分担(RPR)と再生指向分担最適化(ROPO)モジュールを含む再生優先分担フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-10T03:17:38Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - Taming Generative Diffusion Prior for Universal Blind Image Restoration [4.106012295148947]
BIR-Dはマルチ誘導ブラインド画像復元を実現することができる。
また、複数の複雑な分解を行うイメージを復元し、実用的な応用を実証することができる。
論文 参考訳(メタデータ) (2024-08-21T02:19:54Z) - Efficient Degradation-aware Any Image Restoration [83.92870105933679]
我々は,低ランク体制下での学習者(DaLe)を用いた効率的なオールインワン画像復元システムである textitDaAIR を提案する。
モデルキャパシティを入力劣化に動的に割り当てることにより、総合学習と特定の学習を統合した効率的な復調器を実現する。
論文 参考訳(メタデータ) (2024-05-24T11:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。