論文の概要: MambaVSR: Content-Aware Scanning State Space Model for Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2506.11768v1
- Date: Fri, 13 Jun 2025 13:22:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.807858
- Title: MambaVSR: Content-Aware Scanning State Space Model for Video Super-Resolution
- Title(参考訳): MambaVSR:ビデオ超解像のためのコンテンツ対応走査状態空間モデル
- Authors: Linfeng He, Meiqin Liu, Qi Tang, Chao Yao, Yao Zhao,
- Abstract要約: 超高解像度ビデオのための最初の状態空間モデルフレームワークであるMambaVSRを提案する。
MambaVSRは共有コンパス構築(SCC)とコンテンツ認識シーケンス化(CAS)を通じて動的相互作用を可能にする
CASモジュールは、学習された空間秩序に沿って時間的特徴をインターリーブすることにより、複数のフレームにまたがる非局所的な類似コンテンツを効果的に調整し集約する。
- 参考スコア(独自算出の注目度): 33.457410717030946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video super-resolution (VSR) faces critical challenges in effectively modeling non-local dependencies across misaligned frames while preserving computational efficiency. Existing VSR methods typically rely on optical flow strategies or transformer architectures, which struggle with large motion displacements and long video sequences. To address this, we propose MambaVSR, the first state-space model framework for VSR that incorporates an innovative content-aware scanning mechanism. Unlike rigid 1D sequential processing in conventional vision Mamba methods, our MambaVSR enables dynamic spatiotemporal interactions through the Shared Compass Construction (SCC) and the Content-Aware Sequentialization (CAS). Specifically, the SCC module constructs intra-frame semantic connectivity graphs via efficient sparse attention and generates adaptive spatial scanning sequences through spectral clustering. Building upon SCC, the CAS module effectively aligns and aggregates non-local similar content across multiple frames by interleaving temporal features along the learned spatial order. To bridge global dependencies with local details, the Global-Local State Space Block (GLSSB) synergistically integrates window self-attention operations with SSM-based feature propagation, enabling high-frequency detail recovery under global dependency guidance. Extensive experiments validate MambaVSR's superiority, outperforming the Transformer-based method by 0.58 dB PSNR on the REDS dataset with 55% fewer parameters.
- Abstract(参考訳): ビデオ超解像(VSR)は、計算効率を保ちながら、不整合フレーム間で非局所的な依存関係を効果的にモデル化する上で重要な課題に直面している。
既存のVSR法は通常、大きな動きの変位と長いビデオシーケンスに苦しむ光学フロー戦略やトランスフォーマーアーキテクチャに依存している。
そこで本研究では,新しいコンテンツ認識スキャン機構を組み込んだ,VSRのための状態空間モデルフレームワークであるMambaVSRを提案する。
従来の視覚的マンバ法では厳密な1Dシーケンシャル処理とは異なり、我々のMambaVSRは共有コンパス構築(SCC)とコンテンツ認識シーケンス化(CAS)を通して動的時空間相互作用を可能にする。
具体的には、SCCモジュールは、効率的なスパースアテンションを通してフレーム内セマンティックコネクティビティグラフを構築し、スペクトルクラスタリングにより適応的な空間走査シーケンスを生成する。
SCC上に構築されたCASモジュールは、学習された空間秩序に沿って時間的特徴をインターリーブすることにより、複数のフレームにまたがる非局所的な類似コンテンツを効果的に調整し集約する。
グローバル・ローカル・ステート・スペース・ブロック(GLSSB)は、グローバル・ローカル・スペース・ブロック(Global-Local State Space Block, GLSSB)は、SSMベースの特徴伝搬とウィンドウ自己アテンション操作を相乗的に統合し、グローバル・ディテール・ガイダンスの下で高頻度のディテール・リカバリを可能にする。
大規模な実験は、MambaVSRの優位性を検証し、Transformerベースの手法を55%のパラメータでREDSデータセット上で0.58dBのPSNRで上回った。
関連論文リスト
- RD-UIE: Relation-Driven State Space Modeling for Underwater Image Enhancement [59.364418120895]
水中画像強調(UIE)は、海洋視覚応用のための重要な前処理ステップである。
実効UIE(RD-UIE)のための新しい関係駆動型マンバフレームワークを開発した。
水中強化ベンチマークの実験では、RD-UIEは最先端のアプローチであるWMambaよりも優れていた。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - RSDehamba: Lightweight Vision Mamba for Remote Sensing Satellite Image Dehazing [19.89130165954241]
リモートセンシング画像デハージング(RSID)は、高品質な画像復元のための不均一かつ物理的に不規則なヘイズ要素を取り除くことを目的としている。
本稿では,RSID分野におけるRSDhambaと呼ばれるマンバモデル上での最初の軽量ネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-16T12:12:07Z) - Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - CU-Mamba: Selective State Space Models with Channel Learning for Image Restoration [7.292363114816646]
本稿では,二つの状態空間モデルフレームワークをU-Netアーキテクチャに組み込んだChannel-Aware U-Shaped Mambaモデルを紹介する。
実験は、CU-Mambaが既存の最先端手法よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-04-17T22:02:22Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - Optical-Flow-Reuse-Based Bidirectional Recurrent Network for Space-Time
Video Super-Resolution [52.899234731501075]
時空間ビデオ超解像(ST-VSR)は、与えられたビデオの空間解像度とフレームレートを同時に増加させる。
既存の手法は通常、近隣の幅広いフレームからの情報を効率的に活用する方法の難しさに悩まされる。
本稿では,隣接するフレーム間の知識を活用するために,ConvLSTMの代わりに粗大な双方向リカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T15:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。