論文の概要: MoMa: Modulating Mamba for Adapting Image Foundation Models to Video Recognition
- arxiv url: http://arxiv.org/abs/2506.23283v1
- Date: Sun, 29 Jun 2025 15:14:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.806716
- Title: MoMa: Modulating Mamba for Adapting Image Foundation Models to Video Recognition
- Title(参考訳): MoMa:イメージファウンデーションモデルにビデオ認識を適用するためのMambaの修正
- Authors: Yuhuan Yang, Chaofan Ma, Zhenjie Mao, Jiangchao Yao, Ya Zhang, Yanfeng Wang,
- Abstract要約: MoMaは、完全な空間時間モデリングを実現する効率的なアダプタフレームワークである。
事前学習したIMFに空間時間情報を注入するSeqMod演算を提案する。
- 参考スコア(独自算出の注目度): 35.69956488221345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video understanding is a complex challenge that requires effective modeling of spatial-temporal dynamics. With the success of image foundation models (IFMs) in image understanding, recent approaches have explored parameter-efficient fine-tuning (PEFT) to adapt IFMs for video. However, most of these methods tend to process spatial and temporal information separately, which may fail to capture the full intricacy of video dynamics. In this paper, we propose MoMa, an efficient adapter framework that achieves full spatial-temporal modeling by integrating Mamba's selective state space modeling into IFMs. We propose a novel SeqMod operation to inject spatial-temporal information into pre-trained IFMs, without disrupting their original features. By incorporating SeqMod into a Divide-and-Modulate architecture, MoMa enhances video understanding while maintaining computational efficiency. Extensive experiments on multiple video benchmarks demonstrate the effectiveness of MoMa, achieving superior performance with reduced computational cost.
- Abstract(参考訳): 映像理解は空間時間力学の効果的なモデリングを必要とする複雑な課題である。
画像理解における画像基盤モデル (IFMs) の成功により、近年のアプローチでは、ビデオにIFMを適用するためのパラメータ効率の細かい調整 (PEFT) が検討されている。
しかし、これらの手法の多くは、空間的情報と時間的情報を別々に処理する傾向にあり、ビデオ力学の完全複雑度を捉えることに失敗する可能性がある。
本稿では,Mambaの選択状態空間モデリングをIMFに組み込むことにより,空間時間モデリングの完全化を実現する,効率的なアダプタフレームワークであるMoMaを提案する。
本研究では,従来の特徴を損なうことなく,空間時間情報を事前学習したIMFに注入するSeqMod演算を提案する。
SeqModをDivide-and-Modulateアーキテクチャに組み込むことで、MoMaは計算効率を維持しながらビデオの理解を向上させる。
複数のビデオベンチマークでの大規模な実験は、MoMaの有効性を示し、計算コストを削減して優れた性能を実現する。
関連論文リスト
- MambaStyle: Efficient StyleGAN Inversion for Real Image Editing with State-Space Models [60.110274007388135]
MambaStyleは、GANインバージョンと編集のための効率的なシングルステージエンコーダベースのアプローチである。
MambaStyleは、逆精度、編集品質、計算効率のバランスが優れていることを示す。
論文 参考訳(メタデータ) (2025-05-06T20:03:47Z) - DefMamba: Deformable Visual State Space Model [65.50381013020248]
我々はDefMambaと呼ばれる新しい視覚基盤モデルを提案する。
変形性スキャン(DS)戦略を組み合わせることで、画像構造を学習し、オブジェクトの細部の変化を検出する能力を大幅に向上する。
多くの実験により、DefMambaは様々な視覚的タスクで最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2025-04-08T08:22:54Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - DemMamba: Alignment-free Raw Video Demoireing with Frequency-assisted Spatio-Temporal Mamba [18.06907326360215]
2つの同様の反復パターンの干渉によるモアレパターンは、画面上の画像やビデオのキャプチャ中に頻繁に観察される。
本稿では,周波数アシスト型マンバを用いたアライメントレス生ビデオ復調ネットワークを提案する。
提案するDemMambaはPSNRで1.3dBの最先端手法を超越し,良好な視覚体験を提供する。
論文 参考訳(メタデータ) (2024-08-20T09:31:03Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - VideoMamba: Spatio-Temporal Selective State Space Model [18.310796559944347]
VideoMambaは、ビデオ認識用に特別に設計された純粋なMambaアーキテクチャの斬新な適応である。
VideoMambaは、リソース効率だけでなく、ビデオの長距離依存性のキャプチャにも有効だ。
我々の研究は、ビデオ理解のための強力なツールとしてのVideoMambaの可能性を強調し、ビデオ分析における将来の研究のための、シンプルだが効果的なベースラインを提供する。
論文 参考訳(メタデータ) (2024-07-11T13:11:21Z) - MeDM: Mediating Image Diffusion Models for Video-to-Video Translation
with Temporal Correspondence Guidance [10.457759140533168]
本研究では,一貫した時間的流れを伴うビデオ間翻訳において,事前学習した画像拡散モデルを用いた効率よく効果的な方法であるMeDMを提案する。
我々は、生成したフレームの物理的制約を強制し、独立したフレーム単位のスコアを仲介する実用的な符号化を構築するために、明示的な光学フローを用いる。
論文 参考訳(メタデータ) (2023-08-19T17:59:12Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z) - TAM: Temporal Adaptive Module for Video Recognition [60.83208364110288]
時間適応モジュール(bf TAM)は、自身の特徴マップに基づいてビデオ固有の時間カーネルを生成する。
Kinetics-400およびSomethingデータセットの実験は、我々のTAMが他の時間的モデリング手法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2020-05-14T08:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。