論文の概要: NSARM: Next-Scale Autoregressive Modeling for Robust Real-World Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2510.00820v1
- Date: Wed, 01 Oct 2025 12:29:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.553732
- Title: NSARM: Next-Scale Autoregressive Modeling for Robust Real-World Image Super-Resolution
- Title(参考訳): NSARM:ロバストな実世界の超解像のための次世代自動回帰モデリング
- Authors: Xiangtao Kong, Rongyuan Wu, Shuaizheng Liu, Lingchen Sun, Lei Zhang,
- Abstract要約: 我々は、堅牢なReal-ISRフレームワーク、すなわち、Next-Scale Autoregressive Modeling (NSARM)を導入する。
純粋なARモデルとして、NSARMは高速な推論速度を維持しながら既存のReal-ISR法よりも優れた視覚的結果を達成する。
- 参考スコア(独自算出の注目度): 17.72407853450265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most recent real-world image super-resolution (Real-ISR) methods employ pre-trained text-to-image (T2I) diffusion models to synthesize the high-quality image either from random Gaussian noise, which yields realistic results but is slow due to iterative denoising, or directly from the input low-quality image, which is efficient but at the price of lower output quality. These approaches train ControlNet or LoRA modules while keeping the pre-trained model fixed, which often introduces over-enhanced artifacts and hallucinations, suffering from the robustness to inputs of varying degradations. Recent visual autoregressive (AR) models, such as pre-trained Infinity, can provide strong T2I generation capabilities while offering superior efficiency by using the bitwise next-scale prediction strategy. Building upon next-scale prediction, we introduce a robust Real-ISR framework, namely Next-Scale Autoregressive Modeling (NSARM). Specifically, we train NSARM in two stages: a transformation network is first trained to map the input low-quality image to preliminary scales, followed by an end-to-end full-model fine-tuning. Such a comprehensive fine-tuning enhances the robustness of NSARM in Real-ISR tasks without compromising its generative capability. Extensive quantitative and qualitative evaluations demonstrate that as a pure AR model, NSARM achieves superior visual results over existing Real-ISR methods while maintaining a fast inference speed. Most importantly, it demonstrates much higher robustness to the quality of input images, showing stronger generalization performance. Project page: https://github.com/Xiangtaokong/NSARM
- Abstract(参考訳): 最近の実世界の画像超解像法(Real-ISR)では、ランダムガウスノイズから高画質画像を合成するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを用いており、これは現実的な結果をもたらすが、反復的なデノジングにより遅く、入力された低品質画像から直接合成する。
これらのアプローチは、事前トレーニングされたモデルの修正を維持しながら、ControlNetまたはLoRAモジュールをトレーニングする。
最近の視覚的自己回帰(AR)モデル(例えば、事前訓練されたInfinity)は、ビットワイドの次のスケール予測戦略を用いて、優れた効率性を提供しながら、強力なT2I生成機能を提供する。
次世代の予測に基づいて、我々は、堅牢なReal-ISRフレームワーク、すなわち、Next-Scale Autoregressive Modeling (NSARM)を導入する。
具体的には、NSARMを2段階に分けてトレーニングする。まず、入力された低品質画像を予備的なスケールにマッピングするために変換ネットワークをトレーニングし、続いてエンドツーエンドのフルモデル微調整を行う。
このような包括的微調整は、その生成能力を損なうことなく、Real-ISRタスクにおけるNSARMの堅牢性を高める。
広汎な定量的および定性的評価は、純粋なARモデルとして、NSARMは高速な推論速度を維持しながら既存のReal-ISR法よりも優れた視覚的結果が得られることを示している。
最も重要なことは、入力画像の品質に対するロバスト性を示し、より強力な一般化性能を示すことである。
プロジェクトページ:https://github.com/Xiangtaokong/NSARM
関連論文リスト
- Frequency-Aware Autoregressive Modeling for Efficient High-Resolution Image Synthesis [40.93077975823353]
視覚的自己回帰モデリングは、次のスケールの予測パラダイムに基づいており、画像の品質とモデルのスケーラビリティにおいて顕著な優位性を示している。
しかし、高解像度の段階での計算オーバーヘッドは、相当数のトークンが関与しているため、依然として重要な課題である。
Sparsevarは、次世代の予測のためのプラグイン・アンド・プレイ・アクセラレーション・フレームワークで、追加のトレーニングを必要とせず、推論中に低周波トークンを動的に排除する。
論文 参考訳(メタデータ) (2025-07-28T01:13:24Z) - Multi-scale Image Super Resolution with a Single Auto-Regressive Model [40.77470215283583]
視覚的自己回帰(VAR)モデリングの最近の進歩を利用して、画像超解像(ISR)に取り組む。
我々の知る限りでは、量子化器が様々なスケールで意味的に一貫した残留を強制するために訓練されたのはこれが初めてである。
本モデルでは, LR画像と超解像を, 1回の前方通過で, 目標値の半値と全値でデノマイズすることができる。
論文 参考訳(メタデータ) (2025-06-05T13:02:23Z) - Visual Autoregressive Modeling for Image Super-Resolution [14.935662351654601]
次世代の予測モデルとして, ISRフレームワークの視覚的自己回帰モデルを提案する。
大規模データを収集し、ロバストな生成先行情報を得るためのトレーニングプロセスを設計する。
論文 参考訳(メタデータ) (2025-01-31T09:53:47Z) - Time Step Generating: A Universal Synthesized Deepfake Image Detector [0.4488895231267077]
汎用合成画像検出器 Time Step Generating (TSG) を提案する。
TSGは、事前訓練されたモデルの再構築能力、特定のデータセット、サンプリングアルゴリズムに依存していない。
我々は,提案したTSGを大規模GenImageベンチマークで検証し,精度と一般化性の両方において大幅な改善を実現した。
論文 参考訳(メタデータ) (2024-11-17T09:39:50Z) - Randomized Autoregressive Visual Generation [26.195148077398223]
本稿では,視覚生成のためのランダム化自己回帰モデリング(RAR)を提案する。
RARは、言語モデリングフレームワークとの完全な互換性を維持しながら、画像生成タスクに最先端のパフォーマンスを新たに設定する。
ImageNet-256ベンチマークでは、RARはFIDスコアが1.48に達し、最先端の自己回帰画像生成装置に勝るだけでなく、拡散ベースおよびマスク付きトランスフォーマーベースの手法よりも優れている。
論文 参考訳(メタデータ) (2024-11-01T17:59:58Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Investigating Tradeoffs in Real-World Video Super-Resolution [90.81396836308085]
実世界のビデオ超解像(VSR)モデルは、一般化性を改善するために様々な劣化で訓練されることが多い。
最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる劣化手法を提案する。
そこで本研究では,多種多様な実世界の低品質映像系列を含むビデオLQデータセットを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:58:21Z) - Unsupervised Single Image Super-resolution Under Complex Noise [60.566471567837574]
本稿では,一般のSISRタスクを未知の劣化で扱うためのモデルベースunsupervised SISR法を提案する。
提案手法は, より小さなモデル (0.34M vs. 2.40M) だけでなく, より高速な技術 (SotA) 法 (約1dB PSNR) の現況を明らかに超えることができる。
論文 参考訳(メタデータ) (2021-07-02T11:55:40Z) - TSNAT: Two-Step Non-Autoregressvie Transformer Models for Speech
Recognition [69.68154370877615]
非自己回帰(NAR)モデルは、出力トークン間の時間的依存関係を排除し、少なくとも1ステップで出力トークン全体を予測することができる。
この2つの問題に対処するため,TSNATと呼ばれる新しいモデルを提案する。
以上の結果から,TSNATはARモデルと競合する性能を示し,複雑なNARモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-04-04T02:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。