論文の概要: Trajectory-aware Shifted State Space Models for Online Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2508.10453v1
- Date: Thu, 14 Aug 2025 08:42:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.238054
- Title: Trajectory-aware Shifted State Space Models for Online Video Super-Resolution
- Title(参考訳): オンラインビデオスーパーリゾリューションのための軌道対応シフト状態モデル
- Authors: Qiang Zhu, Xiandong Meng, Yuxian Jiang, Fan Zhang, David Bull, Shuyuan Zhu, Bing Zeng,
- Abstract要約: 本稿では、トラジェクトリ対応シフトSSM(TS-Mamba)に基づく新しいオンラインVSR手法を提案する。
TS-Mambaは、最初にビデオ内の軌跡を構築し、以前のフレームから最もよく似たトークンを選択する。
私たちのTS-Mambaは、ほとんどのケースで最先端のパフォーマンスを実現し、22.7%以上の削減複雑性(MAC)を実現しています。
- 参考スコア(独自算出の注目度): 57.87099307245989
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online video super-resolution (VSR) is an important technique for many real-world video processing applications, which aims to restore the current high-resolution video frame based on temporally previous frames. Most of the existing online VSR methods solely employ one neighboring previous frame to achieve temporal alignment, which limits long-range temporal modeling of videos. Recently, state space models (SSMs) have been proposed with linear computational complexity and a global receptive field, which significantly improve computational efficiency and performance. In this context, this paper presents a novel online VSR method based on Trajectory-aware Shifted SSMs (TS-Mamba), leveraging both long-term trajectory modeling and low-complexity Mamba to achieve efficient spatio-temporal information aggregation. Specifically, TS-Mamba first constructs the trajectories within a video to select the most similar tokens from the previous frames. Then, a Trajectory-aware Shifted Mamba Aggregation (TSMA) module consisting of proposed shifted SSMs blocks is employed to aggregate the selected tokens. The shifted SSMs blocks are designed based on Hilbert scannings and corresponding shift operations to compensate for scanning losses and strengthen the spatial continuity of Mamba. Additionally, we propose a trajectory-aware loss function to supervise the trajectory generation, ensuring the accuracy of token selection when training our model. Extensive experiments on three widely used VSR test datasets demonstrate that compared with six online VSR benchmark models, our TS-Mamba achieves state-of-the-art performance in most cases and over 22.7\% complexity reduction (in MACs). The source code for TS-Mamba will be available at https://github.com.
- Abstract(参考訳): オンラインビデオスーパーレゾリューション(VSR)は、多くの実世界のビデオ処理アプリケーションにとって重要な技術であり、時間的に前のフレームに基づいて現在の高解像度ビデオフレームを復元することを目的としている。
既存のオンラインVSR手法のほとんどは、ビデオの長時間の時間的モデリングを制限する時間的アライメントを達成するために、隣接する1つのフレームのみを使用する。
近年,線形計算複雑性と大域受容場を備えた状態空間モデル (SSM) が提案され,計算効率と性能が著しく向上した。
本稿では,長期軌跡モデリングと低複雑さマンバを併用したトラジェクトリ対応シフトSSM(TS-Mamba)に基づく新しいオンラインVSR手法を提案する。
具体的には、TS-Mambaは、最初にビデオ内の軌跡を構築し、以前のフレームから最もよく似たトークンを選択する。
次に、提案したシフトSSMブロックからなるTSMAモジュールを用いて、選択したトークンを集約する。
シフトSSMブロックはヒルベルト走査とそれに対応するシフト演算に基づいて設計され、走査損失を補償し、マンバの空間連続性を強化する。
さらに、軌道生成を監督し、モデルのトレーニング時にトークン選択の精度を確保するために、軌道認識損失関数を提案する。
広く使用されている3つのVSRテストデータセットに対する大規模な実験により、我々のTS-Mambaは6つのオンラインVSRベンチマークモデルと比較して、ほとんどのケースで最先端のパフォーマンスを達成し、複雑性を 22.7 % 以上削減した(MAC では)。
TS-Mambaのソースコードはhttps://github.com.comで入手できる。
関連論文リスト
- VSRM: A Robust Mamba-Based Framework for Video Super-Resolution [1.8506868409351092]
ビデオの超高解像度化は、低レベルの視覚タスクにおいて依然として大きな課題である。
本研究では,ビデオ中の長いシーケンスを処理するための新しいフレームワークであるVSRMを提案する。
VSRMは様々なベンチマークで最先端の結果を達成し、将来の研究の基盤として確立している。
論文 参考訳(メタデータ) (2025-06-28T05:51:42Z) - MambaVSR: Content-Aware Scanning State Space Model for Video Super-Resolution [33.457410717030946]
超高解像度ビデオのための最初の状態空間モデルフレームワークであるMambaVSRを提案する。
MambaVSRは共有コンパス構築(SCC)とコンテンツ認識シーケンス化(CAS)を通じて動的相互作用を可能にする
CASモジュールは、学習された空間秩序に沿って時間的特徴をインターリーブすることにより、複数のフレームにまたがる非局所的な類似コンテンツを効果的に調整し集約する。
論文 参考訳(メタデータ) (2025-06-13T13:22:28Z) - MLVTG: Mamba-Based Feature Alignment and LLM-Driven Purification for Multi-Modal Video Temporal Grounding [13.025856914576673]
Video Temporal Groundingは、自然言語クエリに対応するビデオクリップをローカライズすることを目的としている。
既存のTransformerベースの手法は、しばしば冗長な注意と準最適マルチモーダルアライメントに悩まされる。
MLVTGは,MambaAligner と LLMRefiner の2つの重要なモジュールを統合した新しいフレームワークである。
論文 参考訳(メタデータ) (2025-06-10T07:20:12Z) - STNMamba: Mamba-based Spatial-Temporal Normality Learning for Video Anomaly Detection [48.997518615379995]
ビデオ異常検出(VAD)は、インテリジェントなビデオシステムの可能性から広く研究されている。
CNNやトランスフォーマーをベースとした既存の手法の多くは、依然としてかなりの計算負荷に悩まされている。
空間的時間的正規性の学習を促進するために,STNMambaという軽量で効果的なネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-28T08:49:23Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Temporal Modulation Network for Controllable Space-Time Video
Super-Resolution [66.06549492893947]
宇宙時間のビデオ超解像度は、低解像度と低フレームレートのビデオの空間的および時間的解像度を高めることを目指しています。
変形性畳み込み法は、有望なSTVSR性能を達成したが、トレーニング段階で事前に定義された中間フレームのみを推測することができた。
本稿では,任意の中間フレームを高精度な高分解能再構成で補間する時間変調ネットワーク(tmnet)を提案する。
論文 参考訳(メタデータ) (2021-04-21T17:10:53Z) - Zooming SlowMo: An Efficient One-Stage Framework for Space-Time Video
Super-Resolution [100.11355888909102]
時空ビデオ超解像度は低解像度(LR)と低フレームレート(LFR)ビデオシーケンスから高解像度(HR)スローモーションビデオを生成することを目的としている。
入力LRおよびLFRビデオから直接HRスローモーション映像シーケンスを再構成できる一段階の時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-15T17:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。