論文の概要: Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers
- arxiv url: http://arxiv.org/abs/2503.11579v1
- Date: Fri, 14 Mar 2025 16:45:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 22:04:29.422667
- Title: Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers
- Title(参考訳): Vamba: ハイブリッドマンバトランスフォーマーによる時間長ビデオの理解
- Authors: Weiming Ren, Wentao Ma, Huan Yang, Cong Wei, Ge Zhang, Wenhu Chen,
- Abstract要約: State-of-the-the-art transformer-based large multimodal model (LMM)は、1時間のビデオ入力を扱うのに苦労する。
我々は,ビデオトークンを線形複雑にエンコードするために,Mamba-2ブロックを用いたハイブリッドMamba-Transformerモデル(VAMBA)を構築した。
VAMBAは、トレーニングと推論中のGPUメモリ使用量の少なくとも50%削減を実現し、トレーニングステップあたりの速度をほぼ2倍にします。
- 参考スコア(独自算出の注目度): 38.63270256142439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art transformer-based large multimodal models (LMMs) struggle to handle hour-long video inputs due to the quadratic complexity of the causal self-attention operations, leading to high computational costs during training and inference. Existing token compression-based methods reduce the number of video tokens but often incur information loss and remain inefficient for extremely long sequences. In this paper, we explore an orthogonal direction to build a hybrid Mamba-Transformer model (VAMBA) that employs Mamba-2 blocks to encode video tokens with linear complexity. Without any token reduction, VAMBA can encode more than 1024 frames (640$\times$360) on a single GPU, while transformer-based models can only encode 256 frames. On long video input, VAMBA achieves at least 50% reduction in GPU memory usage during training and inference, and nearly doubles the speed per training step compared to transformer-based LMMs. Our experimental results demonstrate that VAMBA improves accuracy by 4.3% on the challenging hour-long video understanding benchmark LVBench over prior efficient video LMMs, and maintains strong performance on a broad spectrum of long and short video understanding tasks.
- Abstract(参考訳): 最先端のトランスフォーマーベース大規模マルチモーダルモデル(LMM)は、因果自己注意操作の2次複雑さのために1時間にわたるビデオ入力を処理するのに苦労し、トレーニングや推論において高い計算コストをもたらす。
既存のトークン圧縮方式は、ビデオトークンの数を減らすが、しばしば情報損失を発生させ、非常に長いシーケンスでは効率が良くない。
本稿では,ビデオトークンを線形複雑にエンコードするために,Mamba-2ブロックを用いたハイブリッドMamba-Transformerモデル(VAMBA)を構築するための直交方向について検討する。
トークンの削減がなければ、VAMBAは1つのGPU上で1024フレーム(640$\times$360)以上をエンコードできる。
長いビデオ入力では、VAMBAはトレーニングと推論中のGPUメモリ使用量の少なくとも50%を削減し、トランスフォーマーベースのLMMと比較してトレーニング毎の速度をほぼ2倍に向上させる。
実験の結果,VAMBAは従来のビデオLMMよりも1時間長ビデオ理解ベンチマークLVBenchの精度を4.3%向上し,長短ビデオ理解タスクの幅広い範囲で高い性能を維持していることがわかった。
関連論文リスト
- An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes [85.00111442236499]
本稿では,非時間密度の動画をGumbel Softmax を用いて様々な立方体に分割する新しい知覚パラダイムを持つ LMM である textbfQuicksviewer を提案する。
言語バックボーンから3段階のプログレッシブステージを通じてモデルをトレーニングし、それぞれが知覚効率によって平均420s/1fpsの長大なビデオを組み込む。
トレーニング用ビデオテキストサンプルは0.8Mに過ぎず, 精度が最大8.72倍に向上した。
論文 参考訳(メタデータ) (2025-04-21T17:57:21Z) - VideoMAP: Toward Scalable Mamba-based Video Autoregressive Pretraining [31.44538839153902]
VideoMAPは、新しい事前トレーニングアプローチを備えたHybrid Mamba-Transformerフレームワークである。
また,ビデオMAPはサンプル効率が優れており,トレーニングデータの少ない既存手法よりも優れていた。
また,マルチモーダルな大言語モデルのためのビジュアルエンコーダとしての VideoMAP の可能性を示す。
論文 参考訳(メタデータ) (2025-03-16T03:01:07Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Multimodal Mamba: Decoder-only Multimodal State Space Model via Quadratic to Linear Distillation [36.44678935063189]
mmMambaは、線形複雑でネイティブなマルチモーダル状態空間モデルを開発するためのフレームワークである。
提案手法は,訓練されたデコーダのみのMLLMを線形複雑度アーキテクチャへ直接変換することを可能にする。
論文 参考訳(メタデータ) (2025-02-18T18:59:57Z) - Fast Vision Mamba: Pooling Spatial Dimensions for Accelerated Processing [0.0]
選択的スキャン(Mamba)を備えた状態空間モデル(SSM)は、効率的な視覚モデルに適応している。
Fast Vision Mamba (FastVim)は、モデル性能を維持しながら、Vision Mambaモデルの繰り返しステップ数を減少させる。
実験では,タスクのスループットが劇的に向上した最先端の性能を実証した。
論文 参考訳(メタデータ) (2025-02-01T23:35:20Z) - ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding [55.320254859515714]
ReTaKeは、ビデオLLMsが8倍のフレーム(最大2048年まで)を処理し、類似のモデルも3~5%縮小し、ビデオMME、MLVU、LongVideoBench、LVBenchなどと競合する。
私たちのコードはhttps://github.com/SCZwangxiao/video-ReTaKe.comで公開されています。
論文 参考訳(メタデータ) (2024-12-29T15:42:24Z) - Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。
本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。
時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文 参考訳(メタデータ) (2024-11-29T04:12:13Z) - Snakes and Ladders: Two Steps Up for VideoMamba [10.954210339694841]
本稿では,自尊心とマンバの差異を理論的に分析する。
本稿では, VideoMamba を1.6-2.8%, 1.1-1.9% で上回る VideoMambaPro モデルを提案する。
我々の2つの解決策は、Vision Mambaモデルの最近の進歩であり、将来のモデルにさらなる改善をもたらす可能性が高い。
論文 参考訳(メタデータ) (2024-06-27T08:45:31Z) - EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。
リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。
提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2022-11-19T09:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。