論文の概要: VideoMamba: State Space Model for Efficient Video Understanding
- arxiv url: http://arxiv.org/abs/2403.06977v2
- Date: Tue, 12 Mar 2024 15:22:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 11:24:56.314325
- Title: VideoMamba: State Space Model for Efficient Video Understanding
- Title(参考訳): videomamba: 効率的なビデオ理解のための状態空間モデル
- Authors: Kunchang Li, Xinhao Li, Yi Wang, Yinan He, Yali Wang, Limin Wang, and
Yu Qiao
- Abstract要約: VideoMambaは既存の3D畳み込みニューラルネットワークとビデオトランスフォーマーの限界を克服する。
線形複雑度演算子は、効率的な長期モデリングを可能にする。
VideoMambaはビデオ理解のための新しいベンチマークを設定している。
- 参考スコア(独自算出の注目度): 46.17083617091239
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Addressing the dual challenges of local redundancy and global dependencies in
video understanding, this work innovatively adapts the Mamba to the video
domain. The proposed VideoMamba overcomes the limitations of existing 3D
convolution neural networks and video transformers. Its linear-complexity
operator enables efficient long-term modeling, which is crucial for
high-resolution long video understanding. Extensive evaluations reveal
VideoMamba's four core abilities: (1) Scalability in the visual domain without
extensive dataset pretraining, thanks to a novel self-distillation technique;
(2) Sensitivity for recognizing short-term actions even with fine-grained
motion differences; (3) Superiority in long-term video understanding,
showcasing significant advancements over traditional feature-based models; and
(4) Compatibility with other modalities, demonstrating robustness in
multi-modal contexts. Through these distinct advantages, VideoMamba sets a new
benchmark for video understanding, offering a scalable and efficient solution
for comprehensive video understanding. All the code and models are available at
https://github.com/OpenGVLab/VideoMamba.
- Abstract(参考訳): ローカル冗長性とビデオ理解におけるグローバル依存という2つの課題に対処するため、この作業は、mambaをビデオドメインに革新的に適応させる。
提案するビデオマンバは、既存の3d畳み込みニューラルネットワークとビデオトランスフォーマーの限界を克服する。
線形複雑度演算子は、高解像度の長時間ビデオ理解に欠かせない効率的な長期モデリングを可能にする。
ビデオマンバの4つのコア能力は,(1)新しい自己蒸留技術により,データセットの事前学習を行わない視覚領域のスケーラビリティ,(2)細粒度の動きの違いでも短時間動作を認識する感度,(3)長期ビデオ理解の優位性,従来の機能ベースモデルに対する著しい進歩,(4)他との互換性,マルチモーダルコンテキストにおけるロバスト性を示すこと,の4つである。
これらの異なる利点により、VideoMambaはビデオ理解のための新しいベンチマークを設定し、包括的なビデオ理解のためのスケーラブルで効率的なソリューションを提供する。
すべてのコードとモデルはhttps://github.com/OpenGVLab/VideoMamba.comで入手できる。
関連論文リスト
- Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding [49.88140766026886]
状態空間モデルMambaは、長周期モデリングからビデオモデリングへの成功を拡大する有望な特性を示している。
我々は、マンバがビデオのモデリングにおいて様々な役割を担い、マンバが優位性を示す様々なタスクを調査しながら、包括的な研究を行う。
実験の結果,ビデオ専用タスクとビデオ言語タスクの両方において,Mambaの強い可能性を示すとともに,有望な効率と性能のトレードオフを示すことができた。
論文 参考訳(メタデータ) (2024-03-14T17:57:07Z) - Vivim: a Video Vision Mamba for Medical Video Object Segmentation [12.408219091543295]
本稿では、医療用ビデオオブジェクトセグメンテーションタスクのための一般的なビデオビジョン・マンバベースのフレームワークbftextVivimを提案する。
我々のビビムは、設計したテンポラルマンバブロックにより、長期の時間的表現を様々なスケールのシーケンスに効果的に圧縮することができる。
また,医用画像の曖昧な病変に対するビビムの識別能力を高めるための境界認識制約も導入した。
論文 参考訳(メタデータ) (2024-01-25T13:27:03Z) - Multi-Modal Video Topic Segmentation with Dual-Contrastive Domain
Adaptation [74.51546366251753]
ビデオトピックセグメンテーションは、ビデオの基礎となる粗い粒度のセマンティック構造を明らかにする。
ビデオの書き起こしとフレームの両方を利用するマルチモーダルなビデオトピックセグメンタを提案する。
提案手法は, 精度と転送性の両方の観点から, ベースライン法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-11-30T21:59:05Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [64.83647588128146]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - Minority-Oriented Vicinity Expansion with Attentive Aggregation for
Video Long-Tailed Recognition [6.673349839900761]
非常に多種多様なトピックが出現する現実世界のビデオボリュームの劇的な増加は、そのカテゴリの観点からも、自然に長い尾の動画配信を形成している。
本稿では,ビデオ長大認識における課題を要約し,その克服方法について考察する。
提案手法は, 大規模ビデオLTとIm Balanced-MiniKinetics200を合成的に誘導し, 最先端の成果を得る。
論文 参考訳(メタデータ) (2022-11-24T08:33:59Z) - Clover: Towards A Unified Video-Language Alignment and Fusion Model [154.1070559563592]
我々は,Corver,Correlated Video-Language Pre-Torning法を紹介する。
クロスモーダルな特徴アライメントと融合を、新しい3モーダルアライメント事前訓練タスクを通じて改善する。
Cloverは、複数のダウンストリームタスクに新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2022-07-16T09:38:52Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。