論文の概要: Multi-scale Image Super Resolution with a Single Auto-Regressive Model
- arxiv url: http://arxiv.org/abs/2506.04990v1
- Date: Thu, 05 Jun 2025 13:02:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.712346
- Title: Multi-scale Image Super Resolution with a Single Auto-Regressive Model
- Title(参考訳): 単一自己回帰モデルによるマルチスケール画像超解像
- Authors: Enrique Sanchez, Isma Hadji, Adrian Bulat, Christos Tzelepis, Brais Martinez, Georgios Tzimiropoulos,
- Abstract要約: 視覚的自己回帰(VAR)モデリングの最近の進歩を利用して、画像超解像(ISR)に取り組む。
我々の知る限りでは、量子化器が様々なスケールで意味的に一貫した残留を強制するために訓練されたのはこれが初めてである。
本モデルでは, LR画像と超解像を, 1回の前方通過で, 目標値の半値と全値でデノマイズすることができる。
- 参考スコア(独自算出の注目度): 40.77470215283583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we tackle Image Super Resolution (ISR), using recent advances in Visual Auto-Regressive (VAR) modeling. VAR iteratively estimates the residual in latent space between gradually increasing image scales, a process referred to as next-scale prediction. Thus, the strong priors learned during pre-training align well with the downstream task (ISR). To our knowledge, only VARSR has exploited this synergy so far, showing promising results. However, due to the limitations of existing residual quantizers, VARSR works only at a fixed resolution, i.e. it fails to map intermediate outputs to the corresponding image scales. Additionally, it relies on a 1B transformer architecture (VAR-d24), and leverages a large-scale private dataset to achieve state-of-the-art results. We address these limitations through two novel components: a) a Hierarchical Image Tokenization approach with a multi-scale image tokenizer that progressively represents images at different scales while simultaneously enforcing token overlap across scales, and b) a Direct Preference Optimization (DPO) regularization term that, relying solely on the LR and HR tokenizations, encourages the transformer to produce the latter over the former. To the best of our knowledge, this is the first time a quantizer is trained to force semantically consistent residuals at different scales, and the first time that preference-based optimization is used to train a VAR. Using these two components, our model can denoise the LR image and super-resolve at half and full target upscale factors in a single forward pass. Additionally, we achieve \textit{state-of-the-art results on ISR}, while using a small model (300M params vs ~1B params of VARSR), and without using external training data.
- Abstract(参考訳): 本稿では、視覚的自己回帰(VAR)モデリングの最近の進歩を利用して、画像超解像(ISR)に取り組む。
VARは、徐々に増大する画像スケール間の潜時空間の残差を反復的に推定する。
したがって、事前訓練中に学んだ強い事前知識は、下流タスク(ISR)とよく一致している。
我々の知る限りでは、VARSRだけがこのシナジーを利用しており、有望な結果を示している。
しかし、既存の残留量子化器の限界のため、VARSRは一定の解像度でしか機能せず、中間出力を対応する画像スケールにマッピングできない。
さらに、1Bトランスフォーマーアーキテクチャ(VAR-d24)に依存し、大規模プライベートデータセットを活用して最先端の結果を得る。
私たちは2つの新しいコンポーネントを通して、これらの制限に対処します。
a) 階層的画像トークン化アプローチで、異なるスケールで画像を段階的に表現し、同時にスケールをまたいでトークンの重複を強制するマルチスケール画像トークン化装置
b) LRおよびHRトークンのみに依存するDPO正規化用語は、トランスフォーマーが前者よりも後者を生成することを奨励するものである。
我々の知る限りでは、量子化器が様々なスケールで意味論的に一貫した残差を強制するように訓練されるのはこれが初めてであり、VARを訓練するために嗜好に基づく最適化が使われるのはこれが初めてである。
これら2つの成分を用いて、我々のモデルはLR画像と超解像を1回の前方通過で半分かつ完全な目標超解像を行うことができる。
さらに,小型モデル (300M params vs ~1B params of VARSR) を用いながら, 外部トレーニングデータを用いずに, ISR 上での textit{state-of-the-art results を実現する。
関連論文リスト
- Pixel to Gaussian: Ultra-Fast Continuous Super-Resolution with 2D Gaussian Modeling [50.34513854725803]
Arbitrary-scale Super- resolution (ASSR) は、低解像度(LR)入力から任意のアップサンプリング係数で高解像度(HR)イメージを再構成することを目的としている。
本稿では,Gaussian Splattingを用いたLR画像から2次元連続HR信号を明示的に再構成する,Pixel-to-Gaussianパラダイムを用いた新しいContinuousSRフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-09T13:43:57Z) - Generalized and Efficient 2D Gaussian Splatting for Arbitrary-scale Super-Resolution [10.074968164380314]
Inlicit Neural Representation (INR) は、任意スケール超解法 (ASR) に成功している
ASRのためのGSを一般化する2つの新しい手法を開発した。
高速な2次元GPU/CUDAベースのスケールアウェアライズを実装し,スーパーアウェアイメージのレンダリングを行う。
論文 参考訳(メタデータ) (2025-01-12T15:14:58Z) - Timestep-Aware Diffusion Model for Extreme Image Rescaling [47.89362819768323]
本稿では,時間認識拡散モデル(TADM)と呼ばれる,画像再スケーリングのための新しいフレームワークを提案する。
TADMは、事前訓練されたオートエンコーダの潜在空間で再スケーリング操作を行う。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルによって学習された強力な自然画像の先行を効果的に活用する。
論文 参考訳(メタデータ) (2024-08-17T09:51:42Z) - WavePaint: Resource-efficient Token-mixer for Self-supervised Inpainting [2.3014300466616078]
本稿では、計算効率の良いWaveMixベースの完全畳み込みアーキテクチャであるWavePaintを用いて、視覚変換器から分岐する。
2次元離散ウェーブレット変換(DWT)を用いて、畳み込み層とともに、空間的および多重解像度のトークン混合を行う。
我々のモデルは、CelebA-HQデータセットの現在のGANアーキテクチャよりも優れている。
論文 参考訳(メタデータ) (2023-07-01T18:41:34Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - LAPAR: Linearly-Assembled Pixel-Adaptive Regression Network for Single
Image Super-Resolution and Beyond [75.37541439447314]
単一画像超解像(SISR)は、低解像度(LR)画像を高解像度(HR)バージョンにアップサンプリングする根本的な問題を扱う。
本稿では,線形組立画素適応回帰ネットワーク (LAPAR) を提案する。
論文 参考訳(メタデータ) (2021-05-21T15:47:18Z) - Characteristic Regularisation for Super-Resolving Face Images [81.84939112201377]
既存の顔画像超解像法(SR)は、主に人工的にダウンサンプリングされた低解像度(LR)画像の改善に焦点を当てている。
従来の非教師なしドメイン適応(UDA)手法は、未ペアの真のLRとHRデータを用いてモデルをトレーニングすることでこの問題に対処する。
これにより、視覚的特徴を構成することと、画像の解像度を高めることの2つのタスクで、モデルをオーバーストレッチする。
従来のSRモデルとUDAモデルの利点を結合する手法を定式化する。
論文 参考訳(メタデータ) (2019-12-30T16:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。