論文の概要: MMInference: Accelerating Pre-filling for Long-Context VLMs via Modality-Aware Permutation Sparse Attention
- arxiv url: http://arxiv.org/abs/2504.16083v1
- Date: Tue, 22 Apr 2025 17:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 16:55:44.049953
- Title: MMInference: Accelerating Pre-filling for Long-Context VLMs via Modality-Aware Permutation Sparse Attention
- Title(参考訳): MM推論:Modality-Aware Permutation Sparse Attentionによる長期VLMの事前充足の高速化
- Authors: Yucheng Li, Huiqiang Jiang, Chengruidong Zhang, Qianhui Wu, Xufang Luo, Surin Ahn, Amir H. Abdi, Dongsheng Li, Jianfeng Gao, Yuqing Yang, Lili Qiu,
- Abstract要約: MMInferenceは、長文マルチモーダル入力のプリフィルステージを高速化する動的スパースアテンション手法である。
MMInferenceは, 精度を維持しつつ, 1Mトークンにおいて, プリフィルステージを最大8.3倍高速化することを示す。
- 参考スコア(独自算出の注目度): 61.025422435235456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of long-context capabilities with visual understanding unlocks unprecedented potential for Vision Language Models (VLMs). However, the quadratic attention complexity during the pre-filling phase remains a significant obstacle to real-world deployment. To overcome this limitation, we introduce MMInference (Multimodality Million tokens Inference), a dynamic sparse attention method that accelerates the prefilling stage for long-context multi-modal inputs. First, our analysis reveals that the temporal and spatial locality of video input leads to a unique sparse pattern, the Grid pattern. Simultaneously, VLMs exhibit markedly different sparse distributions across different modalities. We introduce a permutation-based method to leverage the unique Grid pattern and handle modality boundary issues. By offline search the optimal sparse patterns for each head, MMInference constructs the sparse distribution dynamically based on the input. We also provide optimized GPU kernels for efficient sparse computations. Notably, MMInference integrates seamlessly into existing VLM pipelines without any model modifications or fine-tuning. Experiments on multi-modal benchmarks-including Video QA, Captioning, VisionNIAH, and Mixed-Modality NIAH-with state-of-the-art long-context VLMs (LongVila, LlavaVideo, VideoChat-Flash, Qwen2.5-VL) show that MMInference accelerates the pre-filling stage by up to 8.3x at 1M tokens while maintaining accuracy. Our code is available at https://aka.ms/MMInference.
- Abstract(参考訳): 長いコンテキストと視覚的理解の統合は、ビジョン言語モデル(VLM)の先例のない可能性を解き放っている。
しかし、充填前の段階における二次的な注意の複雑さは、実世界の展開にとって大きな障害である。
この制限を克服するために、長文マルチモーダル入力の準備段階を高速化する動的スパースアテンション手法MMInference(Multimodality Million tokens Inference)を導入する。
まず,映像入力の時間的・空間的局所性から,一意のスパースパターンであるグリッドパターンが導かれることを明らかにした。
同時に、VLMは異なるモダリティ間で著しく異なるスパース分布を示す。
本稿では、一意なグリッドパターンを活用し、モダリティ境界問題に対処するための置換に基づく手法を提案する。
各ヘッドに対して最適なスパースパターンをオフラインで探索することにより、MMInferenceは入力に基づいてスパース分布を動的に構築する。
また、効率的なスパース計算のために最適化されたGPUカーネルを提供する。
特に、MMInferenceはモデル修正や微調整なしに既存のVLMパイプラインにシームレスに統合される。
Video QA、Captioning、VisionNIAH、Mixed-Modality NIAHを含むマルチモーダルベンチマーク(LongVila、LlavaVideo、VideoChat-Flash、Qwen2.5-VL)の実験では、MMInferenceは1Mトークンで最大8.3倍の精度でプリフィルステージを加速している。
私たちのコードはhttps://aka.ms/MMInference.orgで利用可能です。
関連論文リスト
- Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention [36.49445805074941]
Minference (Milliontokens Inference) は長周期処理の前処理を高速化するスパース計算法である。
我々は,MInferenceが精度を維持しつつ,A100にプリフィルする際の推論遅延を最大10倍に効果的に低減できることを実証した。
論文 参考訳(メタデータ) (2024-07-02T17:59:56Z) - MULTIFLOW: Shifting Towards Task-Agnostic Vision-Language Pruning [28.254318215697527]
VLM(Vision-Language Model)は、多数のパラメータによって計算コストが高い。
VLMの既存の技術はタスク固有であり、新しいタスクごとにネットワークをスクラッチから切り離す必要がある。
タスク非依存型視覚言語計画(TA-Language Pruning:TA-Language Pruning)
TA言語のための第1のグラデーションフリー・プルーニングフレームワークであるMultimodal FlowPruning (MULTIFLOW)を提案する。
論文 参考訳(メタデータ) (2024-04-08T15:51:21Z) - CALF: Aligning LLMs for Time Series Forecasting via Cross-modal Fine-Tuning [59.88924847995279]
MTSFのためのクロスモーダルLCMファインチューニング(CALF)フレームワークを提案する。
分散の相違を低減するため,クロスモーダルマッチングモジュールを開発した。
CALFは、長期および短期の予測タスクの最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2024-03-12T04:04:38Z) - ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。
本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。
本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T18:16:06Z) - Unmasked Teacher: Towards Training-Efficient Video Foundation Models [50.19560876891811]
ビデオファウンデーションモデル(VFM)は、高い計算コストとデータ不足のため、限られた探索を受けている。
本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。
我々のモデルは、シーン関連、時間関連、複雑なビデオ言語理解を含む様々なタスクを処理できる。
論文 参考訳(メタデータ) (2023-03-28T15:39:28Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。