論文の概要: MambaVF: State Space Model for Efficient Video Fusion
- arxiv url: http://arxiv.org/abs/2602.06017v1
- Date: Thu, 05 Feb 2026 18:53:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.140495
- Title: MambaVF: State Space Model for Efficient Video Fusion
- Title(参考訳): MambaVF:高効率ビデオ融合のための状態空間モデル
- Authors: Zixiang Zhao, Yukun Cui, Lilun Deng, Haowen Bai, Haotong Qin, Tao Feng, Konrad Schindler,
- Abstract要約: MambaVFは状態空間モデル(SSM)に基づく効率的な融合フレームワークであり、明示的な動き推定なしで時間的モデリングを行う。
MambaVFは、複雑さとメモリコストを大幅に削減しながら、線形複雑で長い時間的依存関係をキャプチャする。
我々はMambaVFが高効率であり、92.25%のパラメータと88.79%の計算FLOPと2.1倍の高速化を実現していることを強調した。
- 参考スコア(独自算出の注目度): 44.038619918204496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video fusion is a fundamental technique in various video processing tasks. However, existing video fusion methods heavily rely on optical flow estimation and feature warping, resulting in severe computational overhead and limited scalability. This paper presents MambaVF, an efficient video fusion framework based on state space models (SSMs) that performs temporal modeling without explicit motion estimation. First, by reformulating video fusion as a sequential state update process, MambaVF captures long-range temporal dependencies with linear complexity while significantly reducing computation and memory costs. Second, MambaVF proposes a lightweight SSM-based fusion module that replaces conventional flow-guided alignment via a spatio-temporal bidirectional scanning mechanism. This module enables efficient information aggregation across frames. Extensive experiments across multiple benchmarks demonstrate that our MambaVF achieves state-of-the-art performance in multi-exposure, multi-focus, infrared-visible, and medical video fusion tasks. We highlight that MambaVF enjoys high efficiency, reducing up to 92.25% of parameters and 88.79% of computational FLOPs and a 2.1x speedup compared to existing methods. Project page: https://mambavf.github.io
- Abstract(参考訳): ビデオ融合は様々なビデオ処理タスクにおいて基本的な技術である。
しかし、既存のビデオ融合法は光学的フロー推定と特徴ゆらぎに大きく依存しており、計算オーバーヘッドがひどく、スケーラビリティは限られている。
本稿では,状態空間モデル(SSM)に基づく効率的なビデオ融合フレームワークであるMambaVFについて述べる。
第一に、ビデオ融合を逐次状態更新プロセスとして再構成することにより、MambaVFは、線形複雑性を伴う長距離時間依存を捉えながら、計算とメモリコストを大幅に削減する。
第二に、MambaVFは、時空間の双方向走査機構によって従来のフロー誘導アライメントを置き換える軽量なSSMベースの融合モジュールを提案する。
このモジュールは、フレーム間の効率的な情報集約を可能にする。
複数のベンチマークにわたる大規模な実験により、マルチ露光、マルチフォーカス、赤外線可視、医療ビデオ融合タスクにおいて、我々のMambaVFが最先端のパフォーマンスを達成することが示された。
我々はMambaVFが高効率であり、92.25%のパラメータと88.79%の計算FLOPと2.1倍の高速化を実現していることを強調した。
プロジェクトページ: https://mambavf.github.io
関連論文リスト
- Trajectory-aware Shifted State Space Models for Online Video Super-Resolution [57.87099307245989]
本稿では、トラジェクトリ対応シフトSSM(TS-Mamba)に基づく新しいオンラインVSR手法を提案する。
TS-Mambaは、最初にビデオ内の軌跡を構築し、以前のフレームから最もよく似たトークンを選択する。
私たちのTS-Mambaは、ほとんどのケースで最先端のパフォーマンスを実現し、22.7%以上の削減複雑性(MAC)を実現しています。
論文 参考訳(メタデータ) (2025-08-14T08:42:15Z) - MoMa: Modulating Mamba for Adapting Image Foundation Models to Video Recognition [35.69956488221345]
MoMaは、完全な空間時間モデリングを実現する効率的なアダプタフレームワークである。
事前学習したIMFに空間時間情報を注入するSeqMod演算を提案する。
論文 参考訳(メタデータ) (2025-06-29T15:14:55Z) - A Unified Solution to Video Fusion: From Multi-Frame Learning to Benchmarking [46.829949073521284]
ビデオ融合の新しい統一フレームワークUnified Video Fusion (UniVF)を提案する。
UniVFは多フレーム学習と光フローベースの特徴ワープを利用して情報的・時間的に一貫性のあるビデオ融合を行う。
また,ビデオフュージョンベンチマーク (VF-Bench) も導入した。
論文 参考訳(メタデータ) (2025-05-26T11:45:10Z) - VADMamba: Exploring State Space Models for Fast Video Anomaly Detection [4.874215132369157]
VQ-Mamba Unet(VQ-MaU)フレームワークには、Vector Quantization(VQ)層と、Mambaベースの非負のVisual State Space(NVSS)ブロックが組み込まれている。
提案するVADMambaの有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2025-03-27T05:38:12Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - MambaDFuse: A Mamba-based Dual-phase Model for Multi-modality Image Fusion [4.2474907126377115]
MMIF(Multi-modality Image fusion)は、異なるモダリティからの補完情報を単一の融合画像に統合することを目的としている。
本研究では, モーダリティ特異的およびモーダリティ融合特徴を抽出するために, マンバをベースとした2相融合モデル(MambaDFuse)を提案する。
提案手法は,赤外線可視画像融合と医用画像融合において有望な融合を実現する。
論文 参考訳(メタデータ) (2024-04-12T11:33:26Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。