論文の概要: EventMamba: Enhancing Spatio-Temporal Locality with State Space Models for Event-Based Video Reconstruction
- arxiv url: http://arxiv.org/abs/2503.19721v2
- Date: Thu, 27 Mar 2025 13:41:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:53:00.669871
- Title: EventMamba: Enhancing Spatio-Temporal Locality with State Space Models for Event-Based Video Reconstruction
- Title(参考訳): EventMamba: イベントベースのビデオ再構成のための状態空間モデルによる時空間局所性向上
- Authors: Chengjie Ge, Xueyang Fu, Peng He, Kunyu Wang, Chengzhi Cao, Zheng-Jun Zha,
- Abstract要約: EventMambaは、イベントベースのビデオ再構成タスク用に設計された、特殊なモデルである。
EventMambaは、Transformerベースの方法と比較して、優れた視覚的品質を提供しながら、スピードを著しく向上させる。
- 参考スコア(独自算出の注目度): 66.84997711357101
- License:
- Abstract: Leveraging its robust linear global modeling capability, Mamba has notably excelled in computer vision. Despite its success, existing Mamba-based vision models have overlooked the nuances of event-driven tasks, especially in video reconstruction. Event-based video reconstruction (EBVR) demands spatial translation invariance and close attention to local event relationships in the spatio-temporal domain. Unfortunately, conventional Mamba algorithms apply static window partitions and standard reshape scanning methods, leading to significant losses in local connectivity. To overcome these limitations, we introduce EventMamba--a specialized model designed for EBVR tasks. EventMamba innovates by incorporating random window offset (RWO) in the spatial domain, moving away from the restrictive fixed partitioning. Additionally, it features a new consistent traversal serialization approach in the spatio-temporal domain, which maintains the proximity of adjacent events both spatially and temporally. These enhancements enable EventMamba to retain Mamba's robust modeling capabilities while significantly preserving the spatio-temporal locality of event data. Comprehensive testing on multiple datasets shows that EventMamba markedly enhances video reconstruction, drastically improving computation speed while delivering superior visual quality compared to Transformer-based methods.
- Abstract(参考訳): 堅牢な線形グローバルモデリング機能を活用して、Mambaはコンピュータビジョンに優れていた。
その成功にもかかわらず、既存のマンバベースのビジョンモデルは、特にビデオ再構成において、イベント駆動タスクのニュアンスを見落としている。
イベントベースビデオ再構成(EBVR)は空間的変換不変性を必要とし、時空間領域における局所的なイベント関係に注意を払っている。
残念なことに、従来のMambaアルゴリズムは静的ウィンドウ分割と標準的なリシェープスキャン手法を採用しており、ローカル接続に大きな損失をもたらしている。
これらの制限を克服するために、EBVRタスク用に設計された特別なモデルであるEventMambaを紹介します。
EventMambaは、空間領域にランダムウィンドウオフセット(RWO)を組み込んで、制約のある固定パーティショニングから離れることによって革新する。
さらに、空間的にも時間的にも隣接する事象の近接を維持するため、時空間領域における新しい一貫したトラバースシリアライズアプローチが特徴である。
これらの拡張により、EventMambaは、イベントデータの時空間的局所性を著しく保ちながら、Mambaの堅牢なモデリング能力を維持できる。
複数のデータセットに対する総合的なテストは、EventMambaがビデオ再構成を著しく強化し、計算速度を大幅に改善し、Transformerベースの方法に比べて優れた視覚的品質を提供することを示している。
関連論文リスト
- STNMamba: Mamba-based Spatial-Temporal Normality Learning for Video Anomaly Detection [48.997518615379995]
ビデオ異常検出(VAD)は、インテリジェントなビデオシステムの可能性から広く研究されている。
CNNやトランスフォーマーをベースとした既存の手法の多くは、依然としてかなりの計算負荷に悩まされている。
空間的時間的正規性の学習を促進するために,STNMambaという軽量で効果的なネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-28T08:49:23Z) - Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。
ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。
大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:36:16Z) - MambaEVT: Event Stream based Visual Object Tracking using State Space Model [20.114886319382943]
バックボーンネットワークとして線形複雑性を持つ状態空間モデルを採用した新しいマンバ型ビジュアルトラッキングフレームワークを提案する。
動的テンプレートと静的テンプレートを効果的に組み合わせることで、Mambaベースのトラッキングアルゴリズムは、複数の大規模データセットの精度と計算コストのバランスが良くなります。
論文 参考訳(メタデータ) (2024-08-20T02:01:17Z) - MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-15T02:29:00Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - DiM-Gesture: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 framework [2.187990941788468]
生音声のみから、高度にパーソナライズされた3Dフルボディジェスチャーを作成するために作られた生成モデル。
Modelは、Mambaベースのファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)Mamba-2拡散アーキテクチャを統合している。
論文 参考訳(メタデータ) (2024-08-01T08:22:47Z) - Rethinking Efficient and Effective Point-based Networks for Event Camera Classification and Regression: EventMamba [11.400397931501338]
イベントカメラは、最小限の電力を消費しながら、低レイテンシで高ダイナミックレンジで環境光の変化を効率的に検出する。
イベントデータを処理する現在のアプローチでは、フレームベースの表現に変換することが多い。
Point Cloudは3D処理の一般的な表現であり、イベントカメラのスパースと非同期性に適合するのに適している。
提案するEventMambaは,最先端(SOTA)のフレームベース手法と比較しても,競合的な結果が得られる,効率的かつ効果的なPoint Cloudフレームワークである。
論文 参考訳(メタデータ) (2024-05-09T21:47:46Z) - MambaPupil: Bidirectional Selective Recurrent model for Event-based Eye tracking [50.26836546224782]
事象に基づく視線追跡は、高時間分解能と低冗長性で非常に有望である。
点眼、固定、ササード、スムーズな追跡を含む眼球運動パターンの多様性と急激さは、眼球運動の局所化に重要な課題を提起する。
本稿では、文脈時空間情報を完全に活用するための双方向の長期シーケンスモデリングと時間変化状態選択機構を提案する。
論文 参考訳(メタデータ) (2024-04-18T11:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。