論文の概要: BIMBA: Selective-Scan Compression for Long-Range Video Question Answering
- arxiv url: http://arxiv.org/abs/2503.09590v2
- Date: Thu, 13 Mar 2025 17:14:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 12:09:14.292303
- Title: BIMBA: Selective-Scan Compression for Long-Range Video Question Answering
- Title(参考訳): BIMBA:ロングランジビデオ質問応答のための選択的スキャン圧縮
- Authors: Md Mohaiminul Islam, Tushar Nagarajan, Huiyu Wang, Gedas Bertasius, Lorenzo Torresani,
- Abstract要約: 長いビデオにおけるビデオ質問回答(VQA)は、関連する情報を抽出する上で重要な課題である。
長大なビデオを扱うための効率的な状態空間モデルであるBIMBAを紹介する。
- 参考スコア(独自算出の注目度): 46.199493246921435
- License:
- Abstract: Video Question Answering (VQA) in long videos poses the key challenge of extracting relevant information and modeling long-range dependencies from many redundant frames. The self-attention mechanism provides a general solution for sequence modeling, but it has a prohibitive cost when applied to a massive number of spatiotemporal tokens in long videos. Most prior methods rely on compression strategies to lower the computational cost, such as reducing the input length via sparse frame sampling or compressing the output sequence passed to the large language model (LLM) via space-time pooling. However, these naive approaches over-represent redundant information and often miss salient events or fast-occurring space-time patterns. In this work, we introduce BIMBA, an efficient state-space model to handle long-form videos. Our model leverages the selective scan algorithm to learn to effectively select critical information from high-dimensional video and transform it into a reduced token sequence for efficient LLM processing. Extensive experiments demonstrate that BIMBA achieves state-of-the-art accuracy on multiple long-form VQA benchmarks, including PerceptionTest, NExT-QA, EgoSchema, VNBench, LongVideoBench, and Video-MME. Code, and models are publicly available at https://sites.google.com/view/bimba-mllm.
- Abstract(参考訳): ビデオ質問回答(VQA)は、関連する情報を抽出し、多くの冗長なフレームから長距離依存関係をモデル化する上で重要な課題となる。
自己アテンションメカニズムはシーケンスモデリングの一般的なソリューションを提供するが、長いビデオの大量の時空間トークンに適用すると、禁忌のコストがかかる。
従来のほとんどの手法は、スパースフレームサンプリングによる入力長の削減や、時空プーリングによる大言語モデル(LLM)に渡される出力シーケンスの圧縮など、計算コストを下げるための圧縮戦略に依存していた。
しかし、これらの素直なアプローチは冗長な情報を過剰に表現し、時空のパターンを早めに再現する。
本研究では,長大なビデオを扱うための効率的な状態空間モデルであるBIMBAを紹介する。
本モデルでは, 高次元映像から重要情報を効果的に選択し, 少ないトークン列に変換し, 効率的なLCM処理を実現するために, 選択的スキャンアルゴリズムを用いて学習する。
大規模な実験により、BIMBAはPerceptionTest、NExT-QA、EgoSchema、VNBench、LongBench、Video-MMEなど、複数のロングフォームVQAベンチマークで最先端の精度を達成した。
コードとモデルはhttps://sites.google.com/view/bimba-mllm.comで公開されている。
関連論文リスト
- Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。
本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。
時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文 参考訳(メタデータ) (2024-11-29T04:12:13Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - Too Many Frames, Not All Useful: Efficient Strategies for Long-Form Video QA [40.54207548074378]
広い時間間隔にまたがるロングフォームビデオは、非常に冗長な情報である。
正しい応答を生成するために必要な全ての情報は、しばしばフレームの小さなサブセットに含まれる。
論文 参考訳(メタデータ) (2024-06-13T17:59:16Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。