論文の概要: Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers
- arxiv url: http://arxiv.org/abs/2503.11579v1
- Date: Fri, 14 Mar 2025 16:45:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:06:58.632421
- Title: Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers
- Title(参考訳): Vamba: ハイブリッドマンバトランスフォーマーによる時間長ビデオの理解
- Authors: Weiming Ren, Wentao Ma, Huan Yang, Cong Wei, Ge Zhang, Wenhu Chen,
- Abstract要約: State-of-the-the-art transformer-based large multimodal model (LMM)は、1時間のビデオ入力を扱うのに苦労する。
我々は,ビデオトークンを線形複雑にエンコードするために,Mamba-2ブロックを用いたハイブリッドMamba-Transformerモデル(VAMBA)を構築した。
VAMBAは、トレーニングと推論中のGPUメモリ使用量の少なくとも50%削減を実現し、トレーニングステップあたりの速度をほぼ2倍にします。
- 参考スコア(独自算出の注目度): 38.63270256142439
- License:
- Abstract: State-of-the-art transformer-based large multimodal models (LMMs) struggle to handle hour-long video inputs due to the quadratic complexity of the causal self-attention operations, leading to high computational costs during training and inference. Existing token compression-based methods reduce the number of video tokens but often incur information loss and remain inefficient for extremely long sequences. In this paper, we explore an orthogonal direction to build a hybrid Mamba-Transformer model (VAMBA) that employs Mamba-2 blocks to encode video tokens with linear complexity. Without any token reduction, VAMBA can encode more than 1024 frames (640$\times$360) on a single GPU, while transformer-based models can only encode 256 frames. On long video input, VAMBA achieves at least 50% reduction in GPU memory usage during training and inference, and nearly doubles the speed per training step compared to transformer-based LMMs. Our experimental results demonstrate that VAMBA improves accuracy by 4.3% on the challenging hour-long video understanding benchmark LVBench over prior efficient video LMMs, and maintains strong performance on a broad spectrum of long and short video understanding tasks.
- Abstract(参考訳): 最先端のトランスフォーマーベース大規模マルチモーダルモデル(LMM)は、因果自己注意操作の2次複雑さのために1時間にわたるビデオ入力を処理するのに苦労し、トレーニングや推論において高い計算コストをもたらす。
既存のトークン圧縮方式は、ビデオトークンの数を減らすが、しばしば情報損失を発生させ、非常に長いシーケンスでは効率が良くない。
本稿では,ビデオトークンを線形複雑にエンコードするために,Mamba-2ブロックを用いたハイブリッドMamba-Transformerモデル(VAMBA)を構築するための直交方向について検討する。
トークンの削減がなければ、VAMBAは1つのGPU上で1024フレーム(640$\times$360)以上をエンコードできる。
長いビデオ入力では、VAMBAはトレーニングと推論中のGPUメモリ使用量の少なくとも50%を削減し、トランスフォーマーベースのLMMと比較してトレーニング毎の速度をほぼ2倍に向上させる。
実験の結果,VAMBAは従来のビデオLMMよりも1時間長ビデオ理解ベンチマークLVBenchの精度を4.3%向上し,長短ビデオ理解タスクの幅広い範囲で高い性能を維持していることがわかった。
関連論文リスト
- Multimodal Mamba: Decoder-only Multimodal State Space Model via Quadratic to Linear Distillation [36.44678935063189]
mmMambaは、線形複雑でネイティブなマルチモーダル状態空間モデルを開発するためのフレームワークである。
提案手法は,訓練されたデコーダのみのMLLMを線形複雑度アーキテクチャへ直接変換することを可能にする。
論文 参考訳(メタデータ) (2025-02-18T18:59:57Z) - Fast Vision Mamba: Pooling Spatial Dimensions for Accelerated Processing [0.0]
選択的スキャン(Mamba)を備えた状態空間モデル(SSM)は、効率的な視覚モデルに適応している。
Fast Vision Mamba (FastVim)は、モデル性能を維持しながら、Vision Mambaモデルの繰り返しステップ数を減少させる。
実験では,タスクのスループットが劇的に向上した最先端の性能を実証した。
論文 参考訳(メタデータ) (2025-02-01T23:35:20Z) - ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding [55.320254859515714]
長時間ビデオ理解のための時間的視覚的冗長性と知識的冗長性を両立させるトレーニングフリー手法である$bfReTaKe$を導入する。
DPSelectは、人間の映像知覚と密接に一致している視覚的特徴に基づいて、局所的な最大ピーク距離を持つビデオを特定する。
PivotKVはピボットとしてVideoBenchsを使用し、注意スコアの低い非テキストトークンに対してKVキャッシュ圧縮を実行する。
論文 参考訳(メタデータ) (2024-12-29T15:42:24Z) - Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。
本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。
時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文 参考訳(メタデータ) (2024-11-29T04:12:13Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - Snakes and Ladders: Two Steps Up for VideoMamba [10.954210339694841]
本稿では,自尊心とマンバの差異を理論的に分析する。
本稿では, VideoMamba を1.6-2.8%, 1.1-1.9% で上回る VideoMambaPro モデルを提案する。
我々の2つの解決策は、Vision Mambaモデルの最近の進歩であり、将来のモデルにさらなる改善をもたらす可能性が高い。
論文 参考訳(メタデータ) (2024-06-27T08:45:31Z) - Towards End-to-End Generative Modeling of Long Videos with
Memory-Efficient Bidirectional Transformers [13.355338760884583]
本稿では,ビデオの長期依存性をエンドツーエンドに学習するためのメモリ指向の双方向変換器(MeBT)を提案する。
本手法は,部分的に観察されたパッチからビデオの全時間容積を並列に復号する。
論文 参考訳(メタデータ) (2023-03-20T16:35:38Z) - EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。
リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。
提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2022-11-19T09:57:01Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。