Fugu-MT 論文翻訳(概要): VideoMamba: State Space Model for Efficient Video Understanding

論文の概要: VideoMamba: State Space Model for Efficient Video Understanding

arxiv url: http://arxiv.org/abs/2403.06977v2
Date: Tue, 12 Mar 2024 15:22:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 11:24:56.314325
Title: VideoMamba: State Space Model for Efficient Video Understanding
Title（参考訳）: videomamba: 効率的なビデオ理解のための状態空間モデル
Authors: Kunchang Li, Xinhao Li, Yi Wang, Yinan He, Yali Wang, Limin Wang, and Yu Qiao
Abstract要約: VideoMambaは既存の3D畳み込みニューラルネットワークとビデオトランスフォーマーの限界を克服する。線形複雑度演算子は、効率的な長期モデリングを可能にする。 VideoMambaはビデオ理解のための新しいベンチマークを設定している。
参考スコア（独自算出の注目度）: 46.17083617091239
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Addressing the dual challenges of local redundancy and global dependencies in video understanding, this work innovatively adapts the Mamba to the video domain. The proposed VideoMamba overcomes the limitations of existing 3D convolution neural networks and video transformers. Its linear-complexity operator enables efficient long-term modeling, which is crucial for high-resolution long video understanding. Extensive evaluations reveal VideoMamba's four core abilities: (1) Scalability in the visual domain without extensive dataset pretraining, thanks to a novel self-distillation technique; (2) Sensitivity for recognizing short-term actions even with fine-grained motion differences; (3) Superiority in long-term video understanding, showcasing significant advancements over traditional feature-based models; and (4) Compatibility with other modalities, demonstrating robustness in multi-modal contexts. Through these distinct advantages, VideoMamba sets a new benchmark for video understanding, offering a scalable and efficient solution for comprehensive video understanding. All the code and models are available at https://github.com/OpenGVLab/VideoMamba.
Abstract（参考訳）: ローカル冗長性とビデオ理解におけるグローバル依存という2つの課題に対処するため、この作業は、mambaをビデオドメインに革新的に適応させる。提案するビデオマンバは、既存の3d畳み込みニューラルネットワークとビデオトランスフォーマーの限界を克服する。線形複雑度演算子は、高解像度の長時間ビデオ理解に欠かせない効率的な長期モデリングを可能にする。ビデオマンバの4つのコア能力は,(1)新しい自己蒸留技術により,データセットの事前学習を行わない視覚領域のスケーラビリティ,(2)細粒度の動きの違いでも短時間動作を認識する感度,(3)長期ビデオ理解の優位性,従来の機能ベースモデルに対する著しい進歩,(4)他との互換性,マルチモーダルコンテキストにおけるロバスト性を示すこと,の4つである。これらの異なる利点により、VideoMambaはビデオ理解のための新しいベンチマークを設定し、包括的なビデオ理解のためのスケーラブルで効率的なソリューションを提供する。すべてのコードとモデルはhttps://github.com/OpenGVLab/VideoMamba.comで入手できる。

関連論文リスト

M4V: Multi-Modal Mamba for Text-to-Video Generation [58.51139515986472]
テキスト・ビデオ・ジェネレーションはコンテンツを豊かにし、強力な世界シミュレータを作る可能性を秘めている。広大な空間のモデリングは、特にシークエンス処理に二次的を利用する場合、計算的に要求される。テキスト・ビデオ生成のためのマルチモーダル・マンバフレームワークを提案する。テキストとビデオのベンチマーク実験では、M4Vが高品質なビデオを生成する能力を示しながら、計算コストを大幅に削減した。
論文参考訳（メタデータ） (2025-06-12T17:29:40Z)
VideoMAP: Toward Scalable Mamba-based Video Autoregressive Pretraining [31.44538839153902]
VideoMAPは、新しい事前トレーニングアプローチを備えたHybrid Mamba-Transformerフレームワークである。また,ビデオMAPはサンプル効率が優れており,トレーニングデータの少ない既存手法よりも優れていた。また,マルチモーダルな大言語モデルのためのビジュアルエンコーダとしての VideoMAP の可能性を示す。
論文参考訳（メタデータ） (2025-03-16T03:01:07Z)
H-MBA: Hierarchical MamBa Adaptation for Multi-Modal Video Understanding in Autonomous Driving [26.536195829285855]
自律走行ビデオの複雑な動き変化に適合する新しい階層型マンバ適応(H-MBA)フレームワークを提案する。 C-Mambaには様々なタイプの構造状態空間モデルが含まれており、時間分解能の異なるマルチグラニュラリティビデオコンテキストを効果的にキャプチャすることができる。 Q-Mambaは、現在のフレームを学習可能なクエリとして柔軟に変換し、多粒度ビデオコンテキストをクエリに注意深く選択する。
論文参考訳（メタデータ） (2025-01-08T06:26:16Z)
Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文参考訳（メタデータ） (2024-11-29T04:12:13Z)
MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。効率と性能のバランスをとるMobileMambaフレームワークを提案する。 MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文参考訳（メタデータ） (2024-11-24T18:01:05Z)
Realizing Video Summarization from the Path of Language-based Semantic Understanding [19.825666473712197]
本稿では,Mixture of Experts(MoE)パラダイムに触発された新しいビデオ要約フレームワークを提案する。提案手法は,複数のビデオLLMを統合し,包括的で一貫性のあるテキスト要約を生成する。
論文参考訳（メタデータ） (2024-10-06T15:03:22Z)
Mamba Fusion: Learning Actions Through Questioning [12.127052057927182]
ビデオ言語モデル(VLM)は、多様なタスクを一般化し、学習を強化するために言語キューを使用するために不可欠である。本稿では,長距離依存関係を効率的にキャプチャし,視覚と言語データの共同表現を学習する新しいモデルであるMambaVLを紹介する。 MambaVLは、Epic-Kitchens-100データセット上でのアクション認識における最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-09-17T19:36:37Z)
VideoMamba: Spatio-Temporal Selective State Space Model [18.310796559944347]
VideoMambaは、ビデオ認識用に特別に設計された純粋なMambaアーキテクチャの斬新な適応である。 VideoMambaは、リソース効率だけでなく、ビデオの長距離依存性のキャプチャにも有効だ。我々の研究は、ビデオ理解のための強力なツールとしてのVideoMambaの可能性を強調し、ビデオ分析における将来の研究のための、シンプルだが効果的なベースラインを提供する。
論文参考訳（メタデータ） (2024-07-11T13:11:21Z)
Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding [49.88140766026886]
状態空間モデルMambaは、長周期モデリングからビデオモデリングへの成功を拡大する有望な特性を示している。我々は、マンバがビデオのモデリングにおいて様々な役割を担い、マンバが優位性を示す様々なタスクを調査しながら、包括的な研究を行う。実験の結果,ビデオ専用タスクとビデオ言語タスクの両方において,Mambaの強い可能性を示すとともに,有望な効率と性能のトレードオフを示すことができた。
論文参考訳（メタデータ） (2024-03-14T17:57:07Z)
Vivim: a Video Vision Mamba for Medical Video Segmentation [52.11785024350253]
本稿では、医用ビデオセグメンテーションタスクのためのビデオビジョンマンバベースのフレームワークVivimを提案する。我々のビビムは、長期表現を様々なスケールのシーケンスに効果的に圧縮することができる。超音波検査では甲状腺分節,乳房病変分節,大腸内視鏡検査ではポリープ分節が有効で有効であった。
論文参考訳（メタデータ） (2024-01-25T13:27:03Z)
Multi-Modal Video Topic Segmentation with Dual-Contrastive Domain Adaptation [74.51546366251753]
ビデオトピックセグメンテーションは、ビデオの基礎となる粗い粒度のセマンティック構造を明らかにする。ビデオの書き起こしとフレームの両方を利用するマルチモーダルなビデオトピックセグメンタを提案する。提案手法は, 精度と転送性の両方の観点から, ベースライン法をはるかに上回っている。
論文参考訳（メタデータ） (2023-11-30T21:59:05Z)
MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文参考訳（メタデータ） (2023-11-28T17:59:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。