論文の概要: ABMAMBA: Multimodal Large Language Model with Aligned Hierarchical Bidirectional Scan for Efficient Video Captioning
- arxiv url: http://arxiv.org/abs/2604.08050v1
- Date: Thu, 09 Apr 2026 09:58:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.854296
- Title: ABMAMBA: Multimodal Large Language Model with Aligned Hierarchical Bidirectional Scan for Efficient Video Captioning
- Title(参考訳): ABMAMBA:高能率ビデオキャプションのための階層型双方向走査による多モード大言語モデル
- Authors: Daichi Yashima, Shuhei Kurita, Yusuke Oda, Shuntaro Suzuki, Seitaro Otsuki, Komei Sugiura,
- Abstract要約: 完全にオープンなマルチモーダル大言語モデル(MLLM)による動画キャプションに焦点を当てる。
ABMambaは、ビデオシーケンスのスケーラブルな処理を可能にする線形計算複雑性を持つ完全にオープンなMLLMである。
VATEX や MSR-VTT のような標準的なビデオキャプションベンチマークでは、ABMamba は典型的な MLLM と比較して競争性能を示している。
- 参考スコア(独自算出の注目度): 11.388109553982089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we focus on video captioning by fully open multimodal large language models (MLLMs). The comprehension of visual sequences is challenging because of their intricate temporal dependencies and substantial sequence length. The core attention mechanisms of existing Transformer-based approaches scale quadratically with the sequence length, making them computationally prohibitive. To address these limitations, we propose Aligned Hierarchical Bidirectional Scan Mamba (ABMamba), a fully open MLLM with linear computational complexity that enables the scalable processing of video sequences. ABMamba extends Deep State Space Models as its language backbone, replacing the costly quadratic attention mechanisms, and employs a novel Aligned Hierarchical Bidirectional Scan module that processes videos across multiple temporal resolutions. On standard video captioning benchmarks such as VATEX and MSR-VTT, ABMamba demonstrates competitive performance compared to typical MLLMs while achieving approximately three times higher throughput.
- Abstract(参考訳): 本研究では,完全にオープンなマルチモーダル大言語モデル(MLLM)による動画キャプションに着目した。
視覚的シーケンスの理解は、複雑な時間的依存関係と実質的なシーケンスの長さのために困難である。
既存のTransformerベースのアプローチのコアアテンションメカニズムは、シーケンス長の2倍にスケールし、計算的に禁止されている。
これらの制約に対処するために、ビデオシーケンスのスケーラブルな処理を可能にする線形計算複雑性を持つ完全にオープンなMLLMであるAligned Hierarchical Bidirectional Scan Mamba (ABMamba)を提案する。
ABMambaはDeep State Space Modelsを言語バックボーンとして拡張し、コストのかかる二次的な注意機構を置き換えるとともに、複数の時間分解でビデオを処理する新しいAligned Hierarchical Bidirectional Scanモジュールを採用している。
VATEX や MSR-VTT などの標準的なビデオキャプションベンチマークでは、ABMamba は通常の MLLM と比較して、約3倍高いスループットを実現しながら、競争性能を示している。
関連論文リスト
- Mamba-VMR: Multimodal Query Augmentation via Generated Videos for Precise Temporal Grounding [19.92734717848329]
テキスト駆動ビデオモーメント検索(VMR)は、未トリミングビデオに隠された時間的ダイナミクスが限られているため、依然として困難である。
既存のアプローチでは、サブタイトルコンテキストと時間的事前生成を効果的に統合できない。
時間的接地強化のための新しい2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-23T15:44:48Z) - ReMoRa: Multimodal Large Language Model based on Refined Motion Representation for Long-Video Understanding [12.236081012244533]
本研究では,大言語モデル(MLLM)による映像理解に焦点を当てた。
圧縮表現を直接操作して動画を処理するビデオMLLMであるReMoRaを提案する。
本稿では,ReMoRaの長期ビデオ理解ベンチマークを網羅した実験により,ReMoRaの有効性を実証する。
論文 参考訳(メタデータ) (2026-02-18T12:37:35Z) - MLVTG: Mamba-Based Feature Alignment and LLM-Driven Purification for Multi-Modal Video Temporal Grounding [13.025856914576673]
Video Temporal Groundingは、自然言語クエリに対応するビデオクリップをローカライズすることを目的としている。
既存のTransformerベースの手法は、しばしば冗長な注意と準最適マルチモーダルアライメントに悩まされる。
MLVTGは,MambaAligner と LLMRefiner の2つの重要なモジュールを統合した新しいフレームワークである。
論文 参考訳(メタデータ) (2025-06-10T07:20:12Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - BIMBA: Selective-Scan Compression for Long-Range Video Question Answering [46.199493246921435]
長いビデオにおけるビデオ質問回答(VQA)は、関連する情報を抽出する上で重要な課題である。
長大なビデオを扱うための効率的な状態空間モデルであるBIMBAを紹介する。
論文 参考訳(メタデータ) (2025-03-12T17:57:32Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。
本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。
時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文 参考訳(メタデータ) (2024-11-29T04:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。