論文の概要: BasicAVSR: Arbitrary-Scale Video Super-Resolution via Image Priors and Enhanced Motion Compensation
- arxiv url: http://arxiv.org/abs/2510.26149v2
- Date: Thu, 06 Nov 2025 07:48:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 13:46:06.467231
- Title: BasicAVSR: Arbitrary-Scale Video Super-Resolution via Image Priors and Enhanced Motion Compensation
- Title(参考訳): BasicAVSR: 画像優先とモーション補償による任意スケールビデオスーパーリゾリューション
- Authors: Wei Shang, Wanying Zhang, Shuhang Gu, Pengfei Zhu, Qinghua Hu, Dongwei Ren,
- Abstract要約: 任意スケールビデオ超解像(AVSR)のためのベーシックAVSRを提案する。
AVSRは、ビデオフレームの解像度、潜在的に様々なスケーリング要素を強化することを目的としている。
超高分解能, 一般化能力, 推論速度の点で, BasicAVSR は既存手法よりも優れていた。
- 参考スコア(独自算出の注目度): 70.27358326228399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Arbitrary-scale video super-resolution (AVSR) aims to enhance the resolution of video frames, potentially at various scaling factors, which presents several challenges regarding spatial detail reproduction, temporal consistency, and computational complexity. In this paper, we propose a strong baseline BasicAVSR for AVSR by integrating four key components: 1) adaptive multi-scale frequency priors generated from image Laplacian pyramids, 2) a flow-guided propagation unit to aggregate spatiotemporal information from adjacent frames, 3) a second-order motion compensation unit for more accurate spatial alignment of adjacent frames, and 4) a hyper-upsampling unit to generate scale-aware and content-independent upsampling kernels. To meet diverse application demands, we instantiate three propagation variants: (i) a unidirectional RNN unit for strictly online inference, (ii) a unidirectional RNN unit empowered with a limited lookahead that tolerates a small output delay, and (iii) a bidirectional RNN unit designed for offline tasks where computational resources are less constrained. Experimental results demonstrate the effectiveness and adaptability of our model across these different scenarios. Through extensive experiments, we show that BasicAVSR significantly outperforms existing methods in terms of super-resolution quality, generalization ability, and inference speed. Our work not only advances the state-of-the-art in AVSR but also extends its core components to multiple frameworks for diverse scenarios. The code is available at https://github.com/shangwei5/BasicAVSR.
- Abstract(参考訳): 任意スケールビデオ超解像(AVSR)は、ビデオフレームの解像度を高めることを目的としており、空間的詳細再生、時間的一貫性、計算複雑性に関するいくつかの課題を提起している。
本稿では,4つの重要なコンポーネントを統合することで,AVSRのための強力なベースラインであるBasicAVSRを提案する。
1) 画像ラプラシアピラミッドから発生する適応型マルチスケール周波数先行値
2 隣接するフレームから時空間情報を集約する流路誘導伝搬装置
3 隣接するフレームのより正確な空間配置のための二階運動補償装置及び
4) スケール認識およびコンテンツ非依存のアップサンプリングカーネルを生成するハイパーアップサンプリングユニット。
多様なアプリケーション要求を満たすため、3つの伝搬変種をインスタンス化する。
(i)厳密なオンライン推論のための一方向RNNユニット
二 少ない出力遅延を許容する限られたルックアヘッドを有する一方向RNNユニット
三 計算資源の制約が少ないオフラインタスク用に設計された双方向RNNユニット。
実験の結果、これらの異なるシナリオにまたがるモデルの有効性と適応性を示す。
広範にわたる実験により,BasicAVSRは,超解像品質,一般化能力,推論速度において,既存の手法を著しく上回っていることがわかった。
私たちの作業は、AVSRの最先端だけでなく、さまざまなシナリオのためにコアコンポーネントを複数のフレームワークに拡張します。
コードはhttps://github.com/shangwei5/BasicAVSRで公開されている。
関連論文リスト
- LOVE-R1: Advancing Long Video Understanding with an Adaptive Zoom-in Mechanism via Multi-Step Reasoning [73.90466023069125]
ビデオクリップに適応的にズームイン可能なモデルであるLOVE-R1を提案する。
モデルはまず、密度の高いサンプルフレームが提供されるが、小さな解像度で提供される。
空間的詳細が必要な場合、大きなフレーム解像度で興味のあるクリップを拡大することができる。
論文 参考訳(メタデータ) (2025-09-29T13:43:55Z) - FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。
ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。
提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文 参考訳(メタデータ) (2025-06-13T07:59:52Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - RSRWKV: A Linear-Complexity 2D Attention Mechanism for Efficient Remote Sensing Vision Task [20.16344973940904]
高分解能リモートセンシング分析は、シーンの複雑さとスケールの多様性による課題に直面している。
逐次処理と2次元空間推論を橋渡しする新しい2D-WKVスキャン機構を特徴とするSRWKVを提案する。
論文 参考訳(メタデータ) (2025-03-26T10:03:46Z) - Arbitrary-Scale Video Super-Resolution with Structural and Textural Priors [80.92195378575671]
Arbitraスケール超解像(AVSR)の強いベースラインについて述べる。
次に、事前学習したVGGネットワークから計算したマルチスケールの構造とテクスチャをベースラインに組み込むことにより、ST-AVSRを導入する。
総合的な実験により、ST-AVSRは最先端技術よりも超解像品質、一般化能力、推論速度を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-07-13T15:27:39Z) - Group-based Bi-Directional Recurrent Wavelet Neural Networks for Video
Super-Resolution [4.9136996406481135]
ビデオ超解像(VSR)は、低解像度(LR)フレームから高解像度(HR)フレームを推定することを目的としている。
VSRの鍵となる課題は、フレーム内の空間的相関と連続フレーム間の時間的依存を効果的に活用することにある。
論文 参考訳(メタデータ) (2021-06-14T06:36:13Z) - Large Motion Video Super-Resolution with Dual Subnet and Multi-Stage
Communicated Upsampling [18.09730129484432]
ビデオ超解像(VSR)は、低解像度(LR)でビデオを復元し、高解像度(HR)に改善することを目的としている。
本稿では,2重サブネットと多段通信アップサンプリング(dsmc)を用いた,大規模動画の超高解像度化のための深層ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-03-22T11:52:12Z) - MuCAN: Multi-Correspondence Aggregation Network for Video
Super-Resolution [63.02785017714131]
ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。
フレーム間およびフレーム内は、時間的および空間的情報を利用するための鍵となるソースである。
VSRのための効果的なマルチ対応アグリゲーションネットワーク(MuCAN)を構築した。
論文 参考訳(メタデータ) (2020-07-23T05:41:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。