論文の概要: VSRM: A Robust Mamba-Based Framework for Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2506.22762v1
- Date: Sat, 28 Jun 2025 05:51:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.553402
- Title: VSRM: A Robust Mamba-Based Framework for Video Super-Resolution
- Title(参考訳): VSRM: ビデオ超解像のためのロバストなマンバベースのフレームワーク
- Authors: Dinh Phu Tran, Dao Duy Hung, Daeyoung Kim,
- Abstract要約: ビデオの超高解像度化は、低レベルの視覚タスクにおいて依然として大きな課題である。
本研究では,ビデオ中の長いシーケンスを処理するための新しいフレームワークであるVSRMを提案する。
VSRMは様々なベンチマークで最先端の結果を達成し、将来の研究の基盤として確立している。
- 参考スコア(独自算出の注目度): 1.8506868409351092
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video super-resolution remains a major challenge in low-level vision tasks. To date, CNN- and Transformer-based methods have delivered impressive results. However, CNNs are limited by local receptive fields, while Transformers struggle with quadratic complexity, posing challenges for processing long sequences in VSR. Recently, Mamba has drawn attention for its long-sequence modeling, linear complexity, and large receptive fields. In this work, we propose VSRM, a novel \textbf{V}ideo \textbf{S}uper-\textbf{R}esolution framework that leverages the power of \textbf{M}amba. VSRM introduces Spatial-to-Temporal Mamba and Temporal-to-Spatial Mamba blocks to extract long-range spatio-temporal features and enhance receptive fields efficiently. To better align adjacent frames, we propose Deformable Cross-Mamba Alignment module. This module utilizes a deformable cross-mamba mechanism to make the compensation stage more dynamic and flexible, preventing feature distortions. Finally, we minimize the frequency domain gaps between reconstructed and ground-truth frames by proposing a simple yet effective Frequency Charbonnier-like loss that better preserves high-frequency content and enhances visual quality. Through extensive experiments, VSRM achieves state-of-the-art results on diverse benchmarks, establishing itself as a solid foundation for future research.
- Abstract(参考訳): ビデオの超高解像度化は、低レベルの視覚タスクにおいて依然として大きな課題である。
これまで、CNNとTransformerベースの手法は素晴らしい結果をもたらしてきた。
しかし、CNNは局所受容野によって制限され、トランスフォーマーは二次的な複雑さに悩まされ、VSRで長いシーケンスを処理するのに困難を呈する。
近年、マンバはその長いシーケンスモデリング、線形複雑性、および大きな受容場に注目が集まっている。
そこで本研究では, 新規な {textbf{V}ideo \textbf{S}uper-\textbf{R}esolution framework である VSRM を提案する。
VSRMは時空間マンバブロックと時空間マンバブロックを導入し、長距離時空間の特徴を抽出し、受容場を効率的に向上する。
隣接フレームの整合性を改善するために,変形可能なクロスマンバアライメントモジュールを提案する。
このモジュールは変形可能なクロスマンバ機構を使用して、補償段階をよりダイナミックで柔軟なものにし、特徴歪みを防止している。
最後に、高頻度コンテンツをよりよく保存し、視覚的品質を高める、シンプルで効果的な周波数チャーボンニエ様の損失を提案することにより、再構成されたフレームと地上構造の間の周波数領域のギャップを最小化する。
広範な実験を通じて、VSRMは様々なベンチマークの最先端の結果を達成し、将来の研究の基盤として確立した。
関連論文リスト
- FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。
ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。
提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文 参考訳(メタデータ) (2025-06-13T07:59:52Z) - M4V: Multi-Modal Mamba for Text-to-Video Generation [58.51139515986472]
テキスト・ビデオ・ジェネレーションはコンテンツを豊かにし、強力な世界シミュレータを作る可能性を秘めている。
広大な空間のモデリングは、特にシークエンス処理に二次的を利用する場合、計算的に要求される。
テキスト・ビデオ生成のためのマルチモーダル・マンバフレームワークを提案する。
テキストとビデオのベンチマーク実験では、M4Vが高品質なビデオを生成する能力を示しながら、計算コストを大幅に削減した。
論文 参考訳(メタデータ) (2025-06-12T17:29:40Z) - Contrast: A Hybrid Architecture of Transformers and State Space Models for Low-Level Vision [3.574664325523221]
textbfContrastは、textbfConvolutional、textbfTransformer、textbfState Spaceコンポーネントを組み合わせたハイブリッドSRモデルである。
変換器と状態空間機構を統合することで、textbfContrastは各アプローチの欠点を補償し、グローバルコンテキストモデリングとピクセルレベルの精度を向上させる。
論文 参考訳(メタデータ) (2025-01-23T03:34:14Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - MLLA-UNet: Mamba-like Linear Attention in an Efficient U-Shape Model for Medical Image Segmentation [6.578088710294546]
従来のセグメンテーション手法は、高い解剖学的変動、ぼやけた組織の境界、低い臓器コントラスト、ノイズといった課題に対処するのに苦労する。
MLLA-UNet(Mamba-like Linear Attention UNet)を提案する。
MLLA-UNetは、FLARE22、AMOS CT、ACDCに限らず、24の異なるセグメンテーションタスクを持つ6つの挑戦的なデータセットに対して、平均88.32%の最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2024-10-31T08:54:23Z) - DemMamba: Alignment-free Raw Video Demoireing with Frequency-assisted Spatio-Temporal Mamba [18.06907326360215]
2つの同様の反復パターンの干渉によるモアレパターンは、画面上の画像やビデオのキャプチャ中に頻繁に観察される。
本稿では,周波数アシスト型マンバを用いたアライメントレス生ビデオ復調ネットワークを提案する。
提案するDemMambaはPSNRで1.3dBの最先端手法を超越し,良好な視覚体験を提供する。
論文 参考訳(メタデータ) (2024-08-20T09:31:03Z) - MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-15T02:29:00Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - IRSRMamba: Infrared Image Super-Resolution via Mamba-based Wavelet Transform Feature Modulation Model [7.842507196763463]
IRSRMambaはマルチスケール適応のためのウェーブレット変換特徴変調を統合する新しいフレームワークである。
IRSRMambaはPSNR、SSIM、知覚品質において最先端の手法より優れている。
この研究は、高忠実度赤外線画像強調のための有望な方向として、Mambaベースのアーキテクチャを確立する。
論文 参考訳(メタデータ) (2024-05-16T07:49:24Z) - MambaIR: A Simple Baseline for Image Restoration with State-Space Model [46.827053426281715]
我々は,バニラ・マンバを改善するために,局部増強とチャンネルアテンションを導入するMambaIRを紹介した。
本手法は,画像SR上でSwinIRを最大0.45dB向上させる。
論文 参考訳(メタデータ) (2024-02-23T23:15:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。