論文の概要: Efficient One-Step Diffusion Restoration Model with Compact Token Compression and Linear Attention
- arxiv url: http://arxiv.org/abs/2605.23451v1
- Date: Fri, 22 May 2026 10:07:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.303143
- Title: Efficient One-Step Diffusion Restoration Model with Compact Token Compression and Linear Attention
- Title(参考訳): コンパクトなトーケン圧縮とリニアアテンションを用いた1ステップ拡散回復モデル
- Authors: Bingtian Qiao, Yue Shi, Yingjie Zhou, Yong Guo, Guangtao Zhai, Jiezhang Cao,
- Abstract要約: 既存のReal-ISR法は、高密度な潜在表現と2次コストのグローバルモデリングパラダイムを継承する。
重要なボトルネックは、高分解能回復中の過剰なトークン冗長性とコストのかかるトークン相互作用にある、と我々は主張する。
我々は,LRA微細調整によるリニアアテンションDiTを導入し,リニア複雑トークン混合による高分解能復元を実現した。
- 参考スコア(独自算出の注目度): 66.63806505114263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world image super-resolution aims to recover high-quality images from complex and unknown real-world degradations. However, existing generative Real-ISR methods largely inherit the dense latent representations and quadratic-cost global modeling paradigm developed for high-resolution image synthesis, causing computation, memory usage, and inference latency to scale unfavorably with resolution and thus limiting practical deployment. We argue that the key bottleneck lies not in insufficient restoration priors, but in excessive token redundancy and costly token interactions during high-resolution restoration. Motivated by this observation, we revisit Real-ISR from the perspectives of compact latent representation and linear-complexity modeling, and propose SANA-SR, an efficient one-step restoration framework. Specifically, SANA-SR employs a deep compression autoencoder with a 32x compression ratio to drastically reduce latent tokens while preserving restoration-relevant structures and textures. On top of this compact latent space, we introduce a linear-attention DiT with LoRA fine-tuning, enabling efficient high-resolution restoration with linear-complexity token mixing. Extensive experiments on all benchmark datasets demonstrate that SANA-SR achieves highly competitive and often superior quantitative performance against existing methods, while restoring clearer and more realistic textures. Moreover, after pruning, the deployed model runs in 0.019s with 407.95G MACs and 344M parameters, highlighting its strong potential for practical mobile deployment.
- Abstract(参考訳): 現実世界の画像超解像は、複雑で未知の現実世界の劣化から高品質な画像を復元することを目的としている。
しかし、既存の生成型Real-ISR法は、高解像度画像合成のために開発された高密度の潜伏表現と二次コストのグローバルなモデリングパラダイムを主に継承し、計算、メモリ使用量、推論遅延を解決不可能なスケールにし、実用的な展開を制限している。
重要なボトルネックは、修復前の不十分さではなく、過剰なトークン冗長性と高分解能回復におけるコストのかかるトークン相互作用にある、と我々は主張する。
本稿では,コンパクトな潜在表現と線形複雑度モデリングの観点からReal-ISRを再考し,効率的なワンステップ復元フレームワークであるSANA-SRを提案する。
具体的には、SANA-SRは32倍圧縮率の深部圧縮オートエンコーダを用いて、復元関連構造やテクスチャを保存しながら、潜在トークンを大幅に削減する。
このコンパクトな潜在空間の上に,LoRA微細調整付きリニアアテンションDiTを導入し,線形複雑トークン混合による高分解能復元を実現する。
すべてのベンチマークデータセットに対する大規模な実験は、SANA-SRが既存の手法に対して非常に競争力があり、しばしば優れた量的パフォーマンスを達成し、より明確でより現実的なテクスチャを復元していることを示している。
さらに、プルーニング後、デプロイモデルは0.019sで動作し、407.95GのMACと344Mのパラメータを持つ。
関連論文リスト
- EchoSR: Efficient Context Harnessing for Lightweight Image Super-Resolution [22.100613250016366]
EchoSRは、軽量画像超解像のための効率的なコンテキスト調和フレームワークである。
マルチスケールの受容場モデリングと階層型コンテキスト融合を統一する。
複数のベンチマークで最先端の軽量超解像法を一貫して上回る。
論文 参考訳(メタデータ) (2026-05-17T14:20:27Z) - VARestorer: One-Step VAR Distillation for Real-World Image Super-Resolution [76.19751531910039]
本稿では,事前学習したテキストから画像へのVARモデルを,ワンステップのISRモデルに変換するフレームワークであるVARestorerを提案する。
VARestorerは、DIV2Kデータセット上で72.32 MUSIQと0.7669 CLIPIQAで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-04-23T09:09:36Z) - InfScene-SR: Spatially Continuous Inference for Arbitrary-Size Image Super-Resolution [3.6762434952581713]
InfScene-SRは、空間的に連続した超解像を可能にするフレームワークである。
拡散モデルの反復的精密化過程を、新しいガイド付きおよび分散補正融合機構で適用する。
論文 参考訳(メタデータ) (2026-02-23T11:34:59Z) - Continuous Degradation Modeling via Latent Flow Matching for Real-World Super-Resolution [11.776067915986687]
本稿では,フローマッチングによる遅延劣化空間を活用することにより,単一のHR画像から真正LR画像を合成できる新しいフレームワークを提案する。
提案手法では,現実的なアーチファクトを目に見えない劣化レベルで生成し,大規模で現実的なSRトレーニングデータセットの作成を容易にする。
論文 参考訳(メタデータ) (2026-02-04T04:16:38Z) - TinySR: Pruning Diffusion for Real-World Image Super-Resolution [35.07163534857897]
本稿では,Real-ISR用に設計されたコンパクトで効果的な拡散モデルTinySRを提案する。
TinySRは計算コストとモデルサイズを大幅に削減し、5.68倍の高速化と83%のパラメータ削減を実現した。
論文 参考訳(メタデータ) (2025-08-24T16:17:33Z) - RestoreVAR: Visual Autoregressive Generation for All-in-One Image Restoration [51.77917733024544]
潜時拡散モデル(LDM)はオールインワン画像復元法(AiOR)の知覚的品質を改善した。
LDMは反復的なデノゲーションプロセスによって推論が遅くなり、時間に敏感なアプリケーションでは実用的でない。
VAR(Visual Autoregressive Modeling)は、スケールスペースの自己回帰を行い、最先端の拡散変換器に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-05-23T15:52:26Z) - ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration [75.0053551643052]
本稿では、高解像度画像復元のための効率性、スケーラビリティ、長距離モデリングを向上する新しいフレームワークZipIRを紹介する。
ZipIRは画像32xを圧縮する高度に圧縮された潜在表現を使用し、空間トークンの数を効果的に削減する。
ZipIRは既存の拡散ベースの手法を超越し、高度に劣化した入力からの高解像度画像の復元において、未整合の速度と品質を提供する。
論文 参考訳(メタデータ) (2025-04-11T14:49:52Z) - RBSR: Efficient and Flexible Recurrent Network for Burst
Super-Resolution [57.98314517861539]
バースト超解像(BurstSR)は、高解像度(HR)画像を低解像度(LR)画像と雑音画像から再構成することを目的としている。
本稿では,効率よくフレキシブルなリカレントネットワークでフレーム単位のキューを融合させることを提案する。
論文 参考訳(メタデータ) (2023-06-30T12:14:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。