論文の概要: VOSR: A Vision-Only Generative Model for Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2604.03225v1
- Date: Fri, 03 Apr 2026 17:50:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.562885
- Title: VOSR: A Vision-Only Generative Model for Image Super-Resolution
- Title(参考訳): VOSR:画像スーパーリゾリューションのためのビジョン専用生成モデル
- Authors: Rongyuan Wu, Lingchen Sun, Zhengqiang Zhang, Xiangtao Kong, Jixin Zhao, Shihao Wang, Lei Zhang,
- Abstract要約: 生成画像超解像(SR)のためのビジョンオンリー生成フレームワークを提案する。
まず、事前学習された視覚エンコーダを視覚的意味指導として用いて、LR入力から意味豊かで空間的に接地された特徴を抽出する。
以上の結果から,マルチモーダルプレトレーニングを行なわずに,高品質な生成SRを実現できることが示された。
- 参考スコア(独自算出の注目度): 28.65862989487937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most of the recent generative image super-resolution (SR) methods rely on adapting large text-to-image (T2I) diffusion models pretrained on web-scale text-image data. While effective, this paradigm starts from a generic T2I generator, despite that SR is fundamentally a low-resolution (LR) input-conditioned image restoration task. In this work, we investigate whether an SR model trained purely on visual data can rival T2I-based ones. To this end, we propose VOSR, a Vision-Only generative framework for SR. We first extract semantically rich and spatially grounded features from the LR input using a pretrained vision encoder as visual semantic guidance. We then revisit classifier-free guidance for training generative models and show that the standard unconditional branch is ill-suited to restoration models trained from scratch. We therefore replace it with a restoration-oriented guidance strategy that preserves weak LR anchors. Built upon these designs, we first train a multi-step VOSR model from scratch and then distill it into a one-step model for efficient inference. VOSR requires less than one-tenth of the training cost of representative T2I-based SR methods, yet in both multi-step and one-step settings, it achieves competitive or even better perceptual quality and efficiency, while producing more faithful structures with fewer hallucinations on both synthetic and real-world benchmarks. Our results, for the first time, show that high-quality generative SR can be achieved without multimodal pretraining. The code and models can be found at https://github.com/cswry/VOSR.
- Abstract(参考訳): 最近の生成画像超解像(SR)法の多くは、Webスケールのテキスト画像データに基づいて事前訓練された大きなテキスト画像(T2I)拡散モデルを適応させることに依存している。
このパラダイムは、SRは基本的に低解像度(LR)入力条件の画像復元タスクであるにもかかわらず、汎用的なT2Iジェネレータから始まる。
本研究では、視覚データに基づいて純粋に訓練されたSRモデルが、T2Iベースのモデルと競合するかどうかを検討する。
この目的のために、我々は、SRのためのビジョンオンリー生成フレームワークVOSRを提案する。
まず、事前学習された視覚エンコーダを視覚的意味指導として用いて、LR入力から意味豊かで空間的に接地された特徴を抽出する。
次に、生成モデルをトレーニングするための分類器フリーガイダンスを再検討し、標準無条件分岐がスクラッチからトレーニングされたモデルの復元に不適であることを示す。
そこで我々は、弱いLRアンカーを保存した復元指向のガイダンス戦略に置き換える。
これらの設計に基づいて、我々はまずスクラッチから多段階のVOSRモデルを訓練し、効率的な推論のために1段階のモデルに蒸留する。
VOSRは代表的T2IベースのSR手法のトレーニングコストの10分の1以下を必要とするが、マルチステップとワンステップの両方では、競争力や知覚的品質、効率性が向上する一方で、合成ベンチマークと実世界のベンチマークの両方で幻覚を少なくしたより忠実な構造を生成する。
以上の結果から,マルチモーダルプレトレーニングを行なわずに,高品質な生成SRを実現できることが示された。
コードとモデルはhttps://github.com/cswry/VOSRで確認できる。
関連論文リスト
- Dual-domain Adaptation Networks for Realistic Image Super-resolution [81.34345637776408]
現実画像超解像(SR)は、現実世界の低解像度(LR)画像を高解像度(HR)画像に変換することに焦点を当てている。
現在の手法は、限られた現実世界のLR-HRデータと競合し、基本的な画像特徴の学習に影響を及ぼす。
我々は、シミュレーションされた画像SRモデルを実世界のデータセットに効率よく適応できる新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-11-21T12:57:23Z) - NSARM: Next-Scale Autoregressive Modeling for Robust Real-World Image Super-Resolution [17.72407853450265]
我々は、堅牢なReal-ISRフレームワーク、すなわち、Next-Scale Autoregressive Modeling (NSARM)を導入する。
純粋なARモデルとして、NSARMは高速な推論速度を維持しながら既存のReal-ISR法よりも優れた視覚的結果を達成する。
論文 参考訳(メタデータ) (2025-10-01T12:29:58Z) - Multi-scale Image Super Resolution with a Single Auto-Regressive Model [40.77470215283583]
視覚的自己回帰(VAR)モデリングの最近の進歩を利用して、画像超解像(ISR)に取り組む。
我々の知る限りでは、量子化器が様々なスケールで意味的に一貫した残留を強制するために訓練されたのはこれが初めてである。
本モデルでは, LR画像と超解像を, 1回の前方通過で, 目標値の半値と全値でデノマイズすることができる。
論文 参考訳(メタデータ) (2025-06-05T13:02:23Z) - A Lightweight Image Super-Resolution Transformer Trained on Low-Resolution Images Only [22.127873567034825]
トランスフォーマーアーキテクチャは、高解像度(HR)イメージを低解像度(LR)画像から再構成し、シングルイメージのスーパー解像度(SISR)ベンチマークを顕著にリードする。
しかし、彼らの強力な代表力は、畳み込みニューラルネットワーク(CNN)と比較して、トレーニングデータの需要が高い。
本研究では,非教師付きSISR LRのみのベンチマークに対処するLRのみのトレーニング手法を用いた軽量ビジョントランスフォーマーモデルを初めて活用する。
論文 参考訳(メタデータ) (2025-03-30T00:52:26Z) - AdaptSR: Low-Rank Adaptation for Efficient and Scalable Real-World Super-Resolution [50.584551250242235]
AdaptSRは、現実世界のタスクにバイキュービックトレーニングされたSRモデルを効率的に再利用する低ランク適応フレームワークである。
実験の結果,AdaptSRはPSNRで最大4dB,実際のSRベンチマークで2%,GAN法と拡散型SR法より優れていた。
論文 参考訳(メタデータ) (2025-03-10T18:03:18Z) - Efficient Test-Time Adaptation for Super-Resolution with Second-Order
Degradation and Reconstruction [62.955327005837475]
画像超解像(SR)は,低分解能(LR)から高分解能(HR)へのマッピングを,一対のHR-LRトレーニング画像を用いて学習することを目的としている。
SRTTAと呼ばれるSRの効率的なテスト時間適応フレームワークを提案し、SRモデルを異なる/未知の劣化型でテストドメインに迅速に適応させることができる。
論文 参考訳(メタデータ) (2023-10-29T13:58:57Z) - S2R: Exploring a Double-Win Transformer-Based Framework for Ideal and
Blind Super-Resolution [5.617008573997855]
軽量トランスを用いたSRモデル(S2Rトランス)と新しい粗大なトレーニング戦略を提案する。
提案したS2Rは、578Kパラメータしか持たない理想的なSR条件で他の単一像SRモデルより優れている。
ブラインドファジィ環境では、通常のブラインドSRモデルよりも、わずか10のグラデーションアップデートでより良い視覚結果が得られる。
論文 参考訳(メタデータ) (2023-08-16T04:27:44Z) - LAPAR: Linearly-Assembled Pixel-Adaptive Regression Network for Single
Image Super-Resolution and Beyond [75.37541439447314]
単一画像超解像(SISR)は、低解像度(LR)画像を高解像度(HR)バージョンにアップサンプリングする根本的な問題を扱う。
本稿では,線形組立画素適応回帰ネットワーク (LAPAR) を提案する。
論文 参考訳(メタデータ) (2021-05-21T15:47:18Z) - DDet: Dual-path Dynamic Enhancement Network for Real-World Image
Super-Resolution [69.2432352477966]
実画像超解像(Real-SR)は、実世界の高分解能画像(HR)と低分解能画像(LR)の関係に焦点を当てている。
本稿では,Real-SRのためのデュアルパス動的拡張ネットワーク(DDet)を提案する。
特徴表現のための大規模な畳み込みブロックを積み重ねる従来の手法とは異なり、非一貫性のある画像対を研究するためのコンテンツ認識フレームワークを導入する。
論文 参考訳(メタデータ) (2020-02-25T18:24:51Z) - Characteristic Regularisation for Super-Resolving Face Images [81.84939112201377]
既存の顔画像超解像法(SR)は、主に人工的にダウンサンプリングされた低解像度(LR)画像の改善に焦点を当てている。
従来の非教師なしドメイン適応(UDA)手法は、未ペアの真のLRとHRデータを用いてモデルをトレーニングすることでこの問題に対処する。
これにより、視覚的特徴を構成することと、画像の解像度を高めることの2つのタスクで、モデルをオーバーストレッチする。
従来のSRモデルとUDAモデルの利点を結合する手法を定式化する。
論文 参考訳(メタデータ) (2019-12-30T16:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。