論文の概要: Chain-of-Zoom: Extreme Super-Resolution via Scale Autoregression and Preference Alignment
- arxiv url: http://arxiv.org/abs/2505.18600v2
- Date: Tue, 27 May 2025 16:02:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:20.053267
- Title: Chain-of-Zoom: Extreme Super-Resolution via Scale Autoregression and Preference Alignment
- Title(参考訳): Chain-of-Zoom: スケール自己回帰と優先度アライメントによる超解法
- Authors: Bryan Sangwoo Kim, Jeongsol Kim, Jong Chul Ye,
- Abstract要約: CoZ(Chain-of-zoom)は、SISRをマルチスケール対応プロンプトを備えた中間スケールステートの連鎖に分解するフレームワークである。
視覚的手がかりは高倍率で減少するため、視覚言語モデル(VLM)によって生成されたマルチスケール対応テキストプロンプトで各ズームステップを拡大する。
実験により、CoZでラップされた標準4x拡散SRモデルが256倍拡大し、高い知覚品質と忠実度が得られることが示された。
- 参考スコア(独自算出の注目度): 51.99765487172328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern single-image super-resolution (SISR) models deliver photo-realistic results at the scale factors on which they are trained, but collapse when asked to magnify far beyond that regime. We address this scalability bottleneck with Chain-of-Zoom (CoZ), a model-agnostic framework that factorizes SISR into an autoregressive chain of intermediate scale-states with multi-scale-aware prompts. CoZ repeatedly re-uses a backbone SR model, decomposing the conditional probability into tractable sub-problems to achieve extreme resolutions without additional training. Because visual cues diminish at high magnifications, we augment each zoom step with multi-scale-aware text prompts generated by a vision-language model (VLM). The prompt extractor itself is fine-tuned using Generalized Reward Policy Optimization (GRPO) with a critic VLM, aligning text guidance towards human preference. Experiments show that a standard 4x diffusion SR model wrapped in CoZ attains beyond 256x enlargement with high perceptual quality and fidelity. Project Page: https://bryanswkim.github.io/chain-of-zoom/ .
- Abstract(参考訳): 現代の一像超解像モデル(SISR)は、訓練対象のスケールファクターでフォトリアリスティックな結果をもたらす。
SISRをマルチスケール対応プロンプトを備えた中間状態の自己回帰連鎖に分解するモデルに依存しないフレームワークであるChain-of-Zoom (CoZ)で、このスケーラビリティのボトルネックに対処する。
CoZはバックボーンSRモデルを繰り返し使用し、条件付き確率をトラクタブルなサブプロブレムに分解して、追加のトレーニングなしで極端な解像度を達成する。
視覚的手がかりは高倍率で減少するため、視覚言語モデル(VLM)によって生成されたマルチスケール対応テキストプロンプトで各ズームステップを拡大する。
プロンプト抽出器自体は、汎用リワードポリシー最適化(GRPO)と批評家のVLMを用いて微調整され、人間の好みに対するテキストガイダンスが整列される。
実験により、CoZでラップされた標準の4x拡散SRモデルが、知覚品質と忠実度の高い256倍拡大を達成することが示された。
プロジェクトページ: https://bryanswkim.github.io/chain-of-zoom/。
関連論文リスト
- Pixel to Gaussian: Ultra-Fast Continuous Super-Resolution with 2D Gaussian Modeling [50.34513854725803]
Arbitrary-scale Super- resolution (ASSR) は、低解像度(LR)入力から任意のアップサンプリング係数で高解像度(HR)イメージを再構成することを目的としている。
本稿では,Gaussian Splattingを用いたLR画像から2次元連続HR信号を明示的に再構成する,Pixel-to-Gaussianパラダイムを用いた新しいContinuousSRフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-09T13:43:57Z) - Visual Autoregressive Modeling for Image Super-Resolution [14.935662351654601]
次世代の予測モデルとして, ISRフレームワークの視覚的自己回帰モデルを提案する。
大規模データを収集し、ロバストな生成先行情報を得るためのトレーニングプロセスを設計する。
論文 参考訳(メタデータ) (2025-01-31T09:53:47Z) - PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [95.98801201266099]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - $\text{S}^{3}$Mamba: Arbitrary-Scale Super-Resolution via Scaleable State Space Model [45.65903826290642]
ASSRは、1つのモデルを用いて、任意のスケールで低解像度画像を高解像度画像に超解き放つことを目的としている。
拡張性のある連続表現空間を構築するために,$textS3$Mambaと呼ばれる新しい任意のスケール超解法を提案する。
論文 参考訳(メタデータ) (2024-11-16T11:13:02Z) - ASSR-NeRF: Arbitrary-Scale Super-Resolution on Voxel Grid for High-Quality Radiance Fields Reconstruction [27.21399221644529]
暗黙的あるいは明示的な表現を持つ放射場を構築することにより、NeRFに基づく3Dシーンの再構成を行う。
超高解像度ノベルビュー合成のための新しいフレームワークであるArbitrary-Scale Super-Resolution NeRF (ASSR-NeRF)を提案する。
論文 参考訳(メタデータ) (2024-06-28T17:22:33Z) - Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - XPSR: Cross-modal Priors for Diffusion-based Image Super-Resolution [14.935662351654601]
画像超解法では, 拡散法が注目されている。
ISRモデルでは、意味や劣化情報を知覚することは困難であり、不正確な内容や非現実的なアーティファクトによる復元画像が得られる。
拡散モデルに対する高精度かつ包括的意味条件を取得するために,テキストクロスモーダル・プライマリ・フォー・スーパー・リゾリューション(XPSR)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-08T04:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。