論文の概要: RestoreVAR: Visual Autoregressive Generation for All-in-One Image Restoration
- arxiv url: http://arxiv.org/abs/2505.18047v2
- Date: Sat, 25 Oct 2025 22:06:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.332985
- Title: RestoreVAR: Visual Autoregressive Generation for All-in-One Image Restoration
- Title(参考訳): RestoreVAR:オールインワン画像復元のためのビジュアル自動回帰生成
- Authors: Sudarshan Rajagopalan, Kartik Narayan, Vishal M. Patel,
- Abstract要約: 潜時拡散モデル(LDM)はオールインワン画像復元法(AiOR)の知覚的品質を改善した。
LDMは反復的なデノゲーションプロセスによって推論が遅くなり、時間に敏感なアプリケーションでは実用的でない。
VAR(Visual Autoregressive Modeling)は、スケールスペースの自己回帰を行い、最先端の拡散変換器に匹敵する性能を実現する。
- 参考スコア(独自算出の注目度): 51.77917733024544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of latent diffusion models (LDMs) such as Stable Diffusion has significantly improved the perceptual quality of All-in-One image Restoration (AiOR) methods, while also enhancing their generalization capabilities. However, these LDM-based frameworks suffer from slow inference due to their iterative denoising process, rendering them impractical for time-sensitive applications. Visual autoregressive modeling (VAR), a recently introduced approach for image generation, performs scale-space autoregression and achieves comparable performance to that of state-of-the-art diffusion transformers with drastically reduced computational costs. Moreover, our analysis reveals that coarse scales in VAR primarily capture degradations while finer scales encode scene detail, simplifying the restoration process. Motivated by this, we propose RestoreVAR, a novel VAR-based generative approach for AiOR that significantly outperforms LDM-based models in restoration performance while achieving over $10\times$ faster inference. To optimally exploit the advantages of VAR for AiOR, we propose architectural modifications and improvements, including intricately designed cross-attention mechanisms and a latent-space refinement module, tailored for the AiOR task. Extensive experiments show that RestoreVAR achieves state-of-the-art performance among generative AiOR methods, while also exhibiting strong generalization capabilities.
- Abstract(参考訳): 安定拡散のような潜時拡散モデル(LDM)の使用により、オールインワン画像復元法(AiOR)の知覚的品質が向上し、一般化能力も向上した。
しかし、これらの LDM ベースのフレームワークは反復的な denoising プロセスによって推論が遅くなり、時間に敏感なアプリケーションでは実用的でない。
VAR(Visual Autoregressive Modeling)は、画像生成のための最近導入された手法で、スケールスペースの自己回帰を実行し、計算コストを大幅に削減した最先端の拡散変換器と同等の性能を実現する。
さらに,VARにおける粗大なスケールは主に劣化を捉え,より微細なスケールではシーンの詳細をエンコードし,修復プロセスの簡素化が図られている。
そこで本研究では,新しいVARベースのAiOR生成手法であるRestoreVARを提案する。
AiOR の VAR の利点を最適に活用するために,AiOR タスク用に設計された複雑に設計されたクロスアテンション機構や潜在空間リファインメントモジュールなどのアーキテクチャ変更と改善を提案する。
大規模な実験により,RestoreVARは生成的AiOR手法の最先端性能を実現し,高い一般化能力を示した。
関連論文リスト
- AEDR: Training-Free AI-Generated Image Attribution via Autoencoder Double-Reconstruction [25.525545133210805]
AEDR (AutoEncoder Double-Reconstruction) は、連続したオートエンコーダを持つ生成モデルのために設計された訓練不要の属性法である。
既存の再構成手法よりも25.5%高い属性精度を達成し、計算時間の1%しか必要としない。
論文 参考訳(メタデータ) (2025-07-25T06:34:58Z) - Multi-Step Guided Diffusion for Image Restoration on Edge Devices: Toward Lightweight Perception in Embodied AI [0.0]
本稿では,画像品質,知覚精度,一般化を著しく向上させる多段階最適化手法を提案する。
超分解能およびガウス劣化実験により,ステップ毎の勾配更新の増加はLPIPSとPSNRを最小遅延オーバーヘッドで改善することを示した。
我々の発見はMPGDが、ドローンや移動ロボットのような組込みAIエージェントのリアルタイム視覚認識のための軽量でプラグアンドプレイの修復モジュールとしての可能性を強調した。
論文 参考訳(メタデータ) (2025-06-08T21:11:25Z) - Enhancing Variational Autoencoders with Smooth Robust Latent Encoding [54.74721202894622]
変分オートエンコーダ(VAE)は拡散に基づく生成モデルをスケールアップする上で重要な役割を果たしている。
Smooth Robust Latent VAEは、世代品質とロバスト性の両方を向上する、新しい対向トレーニングフレームワークである。
実験により、SRL-VAEは、Nightshade攻撃や画像編集攻撃に対して、画像再構成とテキスト誘導画像編集において、生成品質とロバスト性の両方を改善することが示された。
論文 参考訳(メタデータ) (2025-04-24T03:17:57Z) - ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration [75.0053551643052]
本稿では、高解像度画像復元のための効率性、スケーラビリティ、長距離モデリングを向上する新しいフレームワークZipIRを紹介する。
ZipIRは画像32xを圧縮する高度に圧縮された潜在表現を使用し、空間トークンの数を効果的に削減する。
ZipIRは既存の拡散ベースの手法を超越し、高度に劣化した入力からの高解像度画像の復元において、未整合の速度と品質を提供する。
論文 参考訳(メタデータ) (2025-04-11T14:49:52Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Navigating Image Restoration with VAR's Distribution Alignment Prior [6.0648320320309885]
新しい画像生成パラダイムであるVARは、次世代の予測アプローチを適用することで、生成品質の拡散モデルを上回る。
VAR内の複数スケールの潜在表現を復元として定式化し、繊細に設計されたVarFormerフレームワークを前進させる。
論文 参考訳(メタデータ) (2024-12-30T16:32:55Z) - RAP-SR: RestorAtion Prior Enhancement in Diffusion Models for Realistic Image Super-Resolution [36.137383171027615]
本稿では,Real-SRの事前学習拡散モデルにおける事前拡張手法であるRAP-SRを紹介する。
まず,QDAISP(Quality-Driven Aesthetic Image Selection Pipeline)を用いたHFAID(High-Fidelity Aesthetic Image dataset)を開発した。
第2に、復元優先分担(RPR)と再生指向分担最適化(ROPO)モジュールを含む再生優先分担フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-10T03:17:38Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - Taming Generative Diffusion Prior for Universal Blind Image Restoration [4.106012295148947]
BIR-Dはマルチ誘導ブラインド画像復元を実現することができる。
また、複数の複雑な分解を行うイメージを復元し、実用的な応用を実証することができる。
論文 参考訳(メタデータ) (2024-08-21T02:19:54Z) - Efficient Degradation-aware Any Image Restoration [83.92870105933679]
我々は,低ランク体制下での学習者(DaLe)を用いた効率的なオールインワン画像復元システムである textitDaAIR を提案する。
モデルキャパシティを入力劣化に動的に割り当てることにより、総合学習と特定の学習を統合した効率的な復調器を実現する。
論文 参考訳(メタデータ) (2024-05-24T11:53:27Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。