論文の概要: AlignVAR: Towards Globally Consistent Visual Autoregression for Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2603.00589v2
- Date: Thu, 05 Mar 2026 05:53:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 15:25:24.155912
- Title: AlignVAR: Towards Globally Consistent Visual Autoregression for Image Super-Resolution
- Title(参考訳): AlignVAR: 画像超解像のためのグローバルに一貫性のある視覚自己回帰を目指して
- Authors: Cencen Liu, Dongyang Zhang, Wen Yin, Jielei Wang, Tianyu Li, Ji Guo, Wenbo Jiang, Guoqing Wang, Guoming Lu,
- Abstract要約: 視覚的自己回帰モデルは、次のスケールの予測を通じて安定したトレーニング、非定性推論、高忠実性合成を提供する。
しかし、その応用は未調査のままであり、局所性に偏った注意と残留性のみの監督という2つの重要な課題に直面している。
画像超解像に適した一貫した視覚自己回帰フレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.90182090355781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual autoregressive (VAR) models have recently emerged as a promising alternative for image generation, offering stable training, non-iterative inference, and high-fidelity synthesis through next-scale prediction. This encourages the exploration of VAR for image super-resolution (ISR), yet its application remains underexplored and faces two critical challenges: locality-biased attention, which fragments spatial structures, and residual-only supervision, which accumulates errors across scales, severely compromises global consistency of reconstructed images. To address these issues, we propose AlignVAR, a globally consistent visual autoregressive framework tailored for ISR, featuring two key components: (1) Spatial Consistency Autoregression (SCA), which applies an adaptive mask to reweight attention toward structurally correlated regions, thereby mitigating excessive locality and enhancing long-range dependencies; and (2) Hierarchical Consistency Constraint (HCC), which augments residual learning with full reconstruction supervision at each scale, exposing accumulated deviations early and stabilizing the coarse-to-fine refinement process. Extensive experiments demonstrate that AlignVAR consistently enhances structural coherence and perceptual fidelity over existing generative methods, while delivering over 10x faster inference with nearly 50% fewer parameters than leading diffusion-based approaches, establishing a new paradigm for efficient ISR.
- Abstract(参考訳): VAR(Visual Autoregressive)モデルは最近、画像生成の有望な代替として登場し、安定したトレーニング、非定性推論、次世代の予測による高忠実度合成を提供する。
これにより、画像超解像(ISR)のためのVARの探索が促進されるが、その応用は過小評価され、空間構造を断片化する局所性バイアスド・アテンション(Locality-biased attention)と、スケールにまたがる誤差を蓄積する残差のみの監視(Resistor-only supervision)という2つの重要な課題に直面している。
これらの課題に対処するため,(1) 空間整合性自己回帰(SCA) と,(2) 階層的整合性制約(HCC) の2つの主要な要素を特徴として, ISR に適した一貫した視覚的自己回帰フレームワークである AlignVAR を提案する。
大規模な実験により、AlignVARは既存の生成手法よりも構造的コヒーレンスと知覚的忠実度を一貫して向上し、従来の拡散ベースのアプローチよりも50%近いパラメータで10倍以上高速な推論を実現し、効率的なISRのための新しいパラダイムを確立した。
関連論文リスト
- StepVAR: Structure-Texture Guided Pruning for Visual Autoregressive Models [98.72926158261937]
本稿では,Visual AutoRegressive モデルのためのトレーニングフリートークン解析フレームワークを提案する。
我々は局所的なテクスチャの詳細を捉えるために軽量なハイパスフィルタを使用し、グローバルな構造情報を保存するために主成分分析(PCA)を活用している。
スパーストークンの下で有効な次世代の予測を維持するために,近接した特徴伝達戦略を導入する。
論文 参考訳(メタデータ) (2026-03-02T11:35:05Z) - Bidirectional Reward-Guided Diffusion for Real-World Image Super-Resolution [79.35296000454694]
拡散に基づく超解像は、豊富な詳細を合成することができるが、合成ペアデータで訓練されたモデルは、現実世界のLR画像では失敗することが多い。
我々は,超解像を軌道レベルの優先最適化として定式化する報奨誘導拡散フレームワークであるBird-SRを提案する。
実世界のSRベンチマークの実験では、Bird-SRは知覚品質において最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-05T19:21:45Z) - HSI-VAR: Rethinking Hyperspectral Restoration through Spatial-Spectral Visual Autoregression [43.90363193188088]
ハイパースペクトル画像(HSI)は、よりリッチな空間スペクトル情報をRGBを超えてキャプチャする。
現実のHSIは、ノイズ、ブラー、バンドの欠如など、複合的な劣化に悩まされることが多い。
論文 参考訳(メタデータ) (2026-01-31T14:30:05Z) - OSDEnhancer: Taming Real-World Space-Time Video Super-Resolution with One-Step Diffusion [64.10689934231165]
ビデオスーパーレゾリューションモデル(DM)は、ビデオスーパーレゾリューション(VSR)において極めて成功している。
時空ビデオスーパーレゾリューション(STVSR)の可能性は、低解像度から高解像度までのリアルな視覚コンテンツを回復する必要があるが、コヒーレントなダイナミックスでフレームレートを改善する必要がある。
提案するOSDEnhancerは,効率的なワンステップ拡散プロセスにより,実世界のSTVSRを初期化するための最初の手法である。
実験により,提案手法は実世界のシナリオにおいて優れた性能を維持しつつ,最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2026-01-28T06:59:55Z) - Towards Any-Quality Image Segmentation via Generative and Adaptive Latent Space Enhancement [27.566673104431725]
Segment Anything Models (SAM) は例外的なゼロショットセグメンテーション性能で知られている。
しかし、その性能は著しく劣化した低品質の画像に対して著しく低下し、現実のシナリオではその効果が制限される。
低画質画像におけるロバスト性を高めるために生成遅延空間拡張を利用するGleSAM++を提案する。
論文 参考訳(メタデータ) (2026-01-05T11:28:58Z) - Iterative Inference-time Scaling with Adaptive Frequency Steering for Image Super-Resolution [75.3690742776891]
適応周波数ステアリング(IAFS)を用いた反復拡散推論時間スケーリングを提案する。
IAFSは、構造的偏差の反復的補正によって生成した画像を徐々に精細化することで、知覚品質と構造的忠実性のバランスをとるという課題に対処する。
実験の結果、IAFSは知覚と忠実性の対立を効果的に解決し、知覚の細部と構造的精度を一貫して改善し、既存の推論時間スケーリング手法よりも優れていた。
論文 参考訳(メタデータ) (2025-12-29T15:09:20Z) - Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding [54.05243949024302]
既存の堅牢なMLLMは、視覚エンコーダの一般化にのみ焦点をあてた暗黙のトレーニング/適応に依存している。
本稿では,構造的推論連鎖による視覚的劣化を明示的にモデル化する新しいフレームワークであるRobust-R1を提案する。
提案手法は, (i) 劣化を考慮した推論基盤の微調整, (ii) 劣化パラメータを正確に知覚するための報酬駆動アライメント, (iii) 劣化強度に適応した動的推論深度スケーリングの2つを統合した。
論文 参考訳(メタデータ) (2025-12-19T12:56:17Z) - Latent Harmony: Synergistic Unified UHD Image Restoration via Latent Space Regularization and Controllable Refinement [89.99237142387655]
LH-VAEを導入し、視覚的意味的制約や進行的劣化による意味的堅牢性を高める。
Latent Harmonyは、UHD修復のためのVAEを再定義する2段階のフレームワークである。
実験により、Latent HarmonyはUHDおよび標準解像度タスクにまたがって最先端のパフォーマンスを実現し、効率、知覚品質、再現精度を効果的にバランスさせることが示されている。
論文 参考訳(メタデータ) (2025-10-09T08:54:26Z) - Edge-Aware Normalized Attention for Efficient and Detail-Preserving Single Image Super-Resolution [27.3322913419539]
単一高分解能超解像(SISR)は、単一の低分解能観測から構造的に忠実な高周波成分を回収することが曖昧であるため、非常に不明瞭である。
既存のエッジ対応の手法では、エッジ先行または注意枝をますます複雑なバックボーンにアタッチすることが多いが、アドホック融合は冗長性、不安定な最適化、あるいは限られた構造的利得をもたらすことが多い。
このギャップには, エッジ特徴量と中間特徴量から適応変調マップを導出するエッジ誘導型アテンション機構を用いて対処し, それらを正規化および再重み付けに応用し, 微妙なテクスチャを抑えつつ, 構造的に健全な領域を選択的に増幅する。
論文 参考訳(メタデータ) (2025-09-18T02:31:24Z) - GuideSR: Rethinking Guidance for One-Step High-Fidelity Diffusion-Based Super-Resolution [15.563111624900865]
GuideSRは、画像の忠実度を高めるために特別に設計された、単一ステップ拡散に基づく画像超解像(SR)モデルである。
提案手法は,PSNR, SSIM, LPIPS, DISTS, FIDなど,様々な基準ベースの指標において,既存の手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-05-01T17:48:25Z) - Robust Single Image Dehazing Based on Consistent and Contrast-Assisted
Reconstruction [95.5735805072852]
画像復調モデルのロバスト性を改善するための新しい密度変分学習フレームワークを提案する。
具体的には、デハジングネットワークは、一貫性の規則化されたフレームワークの下で最適化されている。
我々の手法は最先端のアプローチを大きく上回っている。
論文 参考訳(メタデータ) (2022-03-29T08:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。