論文の概要: Mobile-VideoGPT: Fast and Accurate Video Understanding Language Model
- arxiv url: http://arxiv.org/abs/2503.21782v1
- Date: Thu, 27 Mar 2025 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:52:10.739087
- Title: Mobile-VideoGPT: Fast and Accurate Video Understanding Language Model
- Title(参考訳): Mobile-VideoGPT: 高速かつ正確なビデオ理解言語モデル
- Authors: Abdelrahman Shaker, Muhammad Maaz, Chenhui Gou, Hamid Rezatofighi, Salman Khan, Fahad Shahbaz Khan,
- Abstract要約: Mobile-VideoGPTはビデオ理解のための効率的なマルチモーダルフレームワークである。
軽量なデュアルビジュアルエンコーダ、効率的なプロジェクタ、小型言語モデル(SLM)で構成されている。
その結果,Mobile-VideoGPT-0.5Bは最大46トークンを毎秒生成できることがわかった。
- 参考スコア(独自算出の注目度): 60.171601995737646
- License:
- Abstract: Video understanding models often struggle with high computational requirements, extensive parameter counts, and slow inference speed, making them inefficient for practical use. To tackle these challenges, we propose Mobile-VideoGPT, an efficient multimodal framework designed to operate with fewer than a billion parameters. Unlike traditional video large multimodal models (LMMs), Mobile-VideoGPT consists of lightweight dual visual encoders, efficient projectors, and a small language model (SLM), enabling real-time throughput. To further improve efficiency, we present an Attention-Based Frame Scoring mechanism to select the key-frames, along with an efficient token projector that prunes redundant visual tokens and preserves essential contextual cues. We evaluate our model across well-established six video understanding benchmarks (e.g., MVBench, EgoSchema, NextQA, and PercepTest). Our results show that Mobile-VideoGPT-0.5B can generate up to 46 tokens per second while outperforming existing state-of-the-art 0.5B-parameter models by 6 points on average with 40% fewer parameters and more than 2x higher throughput. Our code and models are publicly available at: https://github.com/Amshaker/Mobile-VideoGPT.
- Abstract(参考訳): ビデオ理解モデルは、しばしば高い計算要求、広範なパラメータ数、遅い推論速度に悩まされ、実用的な使用には非効率である。
これらの課題に対処するために,10億未満のパラメータで動作するように設計された効率的なマルチモーダルフレームワークであるMobile-VideoGPTを提案する。
従来のビデオ大マルチモーダルモデル(LMM)とは異なり、Mobile-VideoGPTは軽量なデュアルビジュアルエンコーダ、効率的なプロジェクタ、およびリアルタイムスループットを実現する小型言語モデル(SLM)で構成されている。
効率をさらに向上するため、キーフレームを選択するためのアテンションベースのフレームスコーリング機構と、冗長な視覚トークンを誘発し、重要なコンテキスト的手がかりを保存する効率的なトークンプロジェクタを提案する。
確立された6つのビデオ理解ベンチマーク(MVBench、EgoSchema、NextQA、PercepTestなど)でモデルを評価した。
その結果,Mobile-VideoGPT-0.5Bでは,既存の0.5Bパラメータモデルよりも平均6ポイント,パラメータが40%少なく,スループットが2倍以上に向上した。
私たちのコードとモデルは、https://github.com/Amshaker/Mobile-VideoGPT.comで公開されています。
関連論文リスト
- SnapGen-V: Generating a Five-Second Video within Five Seconds on a Mobile Device [61.42406720183769]
本稿では,大規模ビデオ拡散モデルのパワーをエッジユーザーにもたらすための包括的加速フレームワークを提案する。
我々のモデルは0.6Bのパラメータしか持たないため、iPhone 16 PMで5秒以内に5秒のビデオを生成することができる。
論文 参考訳(メタデータ) (2024-12-13T18:59:56Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action
Recognition [112.66832145320434]
Video-FocalNetは、ローカルなグローバルなコンテキストの両方をモデル化する、ビデオ認識のための効率的かつ効率的なアーキテクチャである。
Video-FocalNetは、自己注意の相互作用と集約のステップを反転させる時間的焦点変調アーキテクチャに基づいている。
我々は,5つの大規模データセット上での映像認識のための最先端のトランスフォーマーモデルに対して,Video-FocalNetsが好適に動作することを示す。
論文 参考訳(メタデータ) (2023-07-13T17:59:33Z) - Video Mobile-Former: Video Recognition with Efficient Global
Spatial-temporal Modeling [125.95527079960725]
トランスフォーマーベースのモデルは、主要なビデオ認識ベンチマークで最高のパフォーマンスを達成した。
Video Mobile-Formerはトランスフォーマーベースの最初のビデオモデルであり、1G FLOP内で計算予算を制限している。
論文 参考訳(メタデータ) (2022-08-25T17:59:00Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。