論文の概要: PEVLM: Parallel Encoding for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2506.19651v2
- Date: Mon, 07 Jul 2025 10:07:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.425952
- Title: PEVLM: Parallel Encoding for Vision-Language Models
- Title(参考訳): PEVLM:視覚言語モデルのための並列符号化
- Authors: Letian Kang, Shixian Luo, Yiqiang Li, Xiaoyang Yu, Shenxuan Zhou, Yong Wu,
- Abstract要約: 我々は,視覚言語モデルのプリフィル効率を高めるために,微調整不要な並列符号化方式である textbfPEVLM を紹介する。
PEVLMは、入力ビデオを共有シンクブロックでコンテキストブロックに分割し、シーケンシャルな位置埋め込みを保持して、注意重量分布をFull-Attentionと整合させる。
実験により、PEVLMは既存の並列符号化手法を一貫して上回り、注目計算で textbf7.47x のスピードアップを達成し、 textbf40% でエンドツーエンドのレイテンシを削減した。
- 参考スコア(独自算出の注目度): 3.669506952334741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have demonstrated strong capabilities in multimodal understanding and generation tasks. However, their application to long video understanding remains hindered by the quadratic complexity of standard attention mechanisms. In this work, we introduce \textbf{PEVLM}, a fine-tuning-free parallel encoding method designed to enhance the prefilling efficiency of VLMs in long video scenarios. PEVLM partitions the input video into context blocks with a shared sink block, while preserving sequential position embeddings to align the attention weight distribution with that of Full-Attention. This design reduces attention complexity from $O((T \times N)^2)$ to $O(T \times N)$ where $T$ is the number of frames and $N$ the number of tokens per frame, without sacrificing accuracy. Extensive experiments across multiple state-of-the-art models and benchmarks demonstrate that PEVLM consistently outperforms existing parallel encoding approaches, achieving up to \textbf{7.47x} speedup in attention computation and reducing end-to-end latency by \textbf{40\%}. Remarkably, PEVLM not only maintains high accuracy, but in some settings even surpasses Full-Attention performance. Under strict latency constraints, it achieves substantial gains, improving accuracy from \textbf{23.26\%} to \textbf{61.03\%}. These results underscore the effectiveness of PEVLM for low-latency, long-context video understanding, making it a promising solution for real-world applications.
- Abstract(参考訳): VLM(Vision-Language Models)は、マルチモーダル理解および生成タスクにおいて強力な機能を示す。
しかし、ビデオの長時間理解へのそれらの応用は、標準的な注意機構の2次複雑さによって妨げられている。
本研究では,長いビデオシナリオにおいて,VLMのプリフィル効率を高めるために,微調整不要な並列符号化方式である \textbf{PEVLM} を紹介する。
PEVLMは、入力ビデオを共有シンクブロックでコンテキストブロックに分割し、シーケンシャルな位置埋め込みを保持して、注意重量分布をFull-Attentionと整合させる。
この設計は、注意の複雑さを$O((T \times N)^2)$から$O(T \times N)$に還元する。
複数の最先端モデルとベンチマークによる広範囲な実験により、PEVLMは既存の並列符号化手法を一貫して上回り、注意計算で \textbf{7.47x} のスピードアップを達成し、 \textbf{40\%} によるエンドツーエンドレイテンシの低減を実現している。
注目すべきは、PEVLMは高い精度を維持するだけでなく、一部の設定ではフルアテンション性能を超えていることだ。
厳密なレイテンシ制約の下では、精度を \textbf{23.26\%} から \textbf{61.03\%} に向上する。
これらの結果は,PEVLMの低レイテンシ・長文ビデオ理解における有効性を裏付けるものであり,実世界のアプリケーションにとって有望なソリューションである。
関連論文リスト
- Event-Priori-Based Vision-Language Model for Efficient Visual Understanding [13.540340702321911]
Event-Priori-Based Vision-Language Model (EP-VLM)は、VLM推論効率を改善する。
EP-VLMはダイナミックイベントビジョンから派生した動作先をVLM効率を高めるために使用する。
論文 参考訳(メタデータ) (2025-06-09T10:45:35Z) - LiteVLM: A Low-Latency Vision-Language Model Inference Pipeline for Resource-Constrained Environments [3.5132364723753797]
本稿では,組込みデバイスへのデプロイに最適化された効率的なビジョン・ランゲージ・モデル(VLM)パイプラインを提案する。
パイプラインは、パッチ選択を併用して、無関係なカメラビューをフィルタリングすることにより、計算オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2025-06-09T04:30:25Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs [65.00970402080351]
大規模視覚言語モデル(VLM)を加速するための有望なアプローチは、特定のレイヤからの注意マップのような部分的な情報を使用してトークンの重要性を評価し、重要度を低く抑えることである。
i) 重要な視覚的トークンを正確に識別するには,部分的注意情報は不十分であり,特に低トークン保持率において,最適なパフォーマンスをもたらす。 (ii) 全層に集約された注目マップのようなグローバルな注意情報は,より効果的に重要なトークンを保存し,攻撃的プルーニングの下で同等のパフォーマンスを維持する。 (iii) 小さなVLMから集約されたグローバルな注意マップは,大きなVLMとよく似ている。
論文 参考訳(メタデータ) (2024-12-04T13:56:44Z) - ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification [29.163757099307553]
大規模視覚言語モデル(LVLM)の効率は、プリフィルフェーズにおける注意機構の計算ボトルネックによって制約される。
本稿では,重要なトークンの動的比割り当て戦略を通じて,LVLM向けに設計された効率的な推論フレームワークZipVLを提案する。
論文 参考訳(メタデータ) (2024-10-11T07:24:21Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。