論文の概要: PEVLM: Parallel Encoding for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2506.19651v1
- Date: Tue, 24 Jun 2025 14:14:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.667157
- Title: PEVLM: Parallel Encoding for Vision-Language Models
- Title(参考訳): PEVLM:視覚言語モデルのための並列符号化
- Authors: Letian Kang, Shixian Luo, Yiqiang Li, Xiaoyang Yu, Shenxuan Zhou, Yong Wu,
- Abstract要約: VLM(Vision-Language Models)は、ビデオレイテンシ計算タスクにおいて強力な性能を示す。
モデル微調整を必要とせず,VLMのプリフィル効率を向上させるための並列符号化方式である textbfPEVLM を提案する。
LongVideoBenchベンチマークの実験では、PEVLMは既存の推論効率の手法よりも最大8.37%の精度で改善されている。
- 参考スコア(独自算出の注目度): 3.669506952334741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have demonstrated strong performance in video-language tasks, yet their application to long video understanding remains constrained by the quadratic complexity of standard attention mechanisms. In this paper, we propose \textbf{PEVLM}, a parallel encoding strategy specifically designed to improve the prefill efficiency of VLMs without requiring model finetuning. PEVLM partitions the input into block-wise segments with a shared sink, preserves full-attention positional embeddings, and aligns attention weights to mimic full-attention distributions. This design reduces attention computation from $O((T \times N)^2)$ to $O(T \times N)$ while maintaining high accuracy. Extensive experiments on the LongVideoBench benchmark show that PEVLM achieves up to 8.37\% accuracy improvement over existing inference-efficient methods and delivers up to 7.47x speedup in attention computation and 40\% reduction in end-to-end latency. Under strict latency constraints, PEVLM significantly outperforms baselines, raising accuracy from 23.26\% to 61.03\%. These results highlight PEVLM's effectiveness for low-latency, long-context video understanding, making it well-suited for real-world applications such as autonomous driving.
- Abstract(参考訳): VLM(Vision-Language Models)は、ビデオ言語タスクにおいて強力な性能を示してきたが、ビデオ理解への応用は、標準的な注意機構の2次複雑さによって制限されている。
本稿では,モデルの微調整を必要とせずに,VLMのプリフィル効率を向上させるための並列符号化方式である‘textbf{PEVLM} を提案する。
PEVLMは、入力を共有シンクでブロックワイズセグメントに分割し、フルアテンション位置埋め込みを保持し、フルアテンション分布を模倣するためにアテンション重みを調整する。
この設計は、高い精度を維持しながら、注意計算を$O((T \times N)^2)$から$O(T \times N)$に還元する。
LongVideoBenchベンチマークの大規模な実験によると、PEVLMは既存の推論効率の手法よりも最大8.37倍の精度向上を実現し、注意計算の7.47倍の高速化とエンドツーエンドのレイテンシの40倍の削減を実現している。
厳密なレイテンシ制約の下では、PEVLMはベースラインを著しく上回り、精度は23.26\%から61.03\%に上昇する。
これらの結果は, PEVLMが低レイテンシ, 長文ビデオ理解に有効であることを強調し, 自律運転のような現実の応用に適している。
関連論文リスト
- Event-Priori-Based Vision-Language Model for Efficient Visual Understanding [13.540340702321911]
Event-Priori-Based Vision-Language Model (EP-VLM)は、VLM推論効率を改善する。
EP-VLMはダイナミックイベントビジョンから派生した動作先をVLM効率を高めるために使用する。
論文 参考訳(メタデータ) (2025-06-09T10:45:35Z) - LiteVLM: A Low-Latency Vision-Language Model Inference Pipeline for Resource-Constrained Environments [3.5132364723753797]
本稿では,組込みデバイスへのデプロイに最適化された効率的なビジョン・ランゲージ・モデル(VLM)パイプラインを提案する。
パイプラインは、パッチ選択を併用して、無関係なカメラビューをフィルタリングすることにより、計算オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2025-06-09T04:30:25Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs [65.00970402080351]
大規模視覚言語モデル(VLM)を加速するための有望なアプローチは、特定のレイヤからの注意マップのような部分的な情報を使用してトークンの重要性を評価し、重要度を低く抑えることである。
i) 重要な視覚的トークンを正確に識別するには,部分的注意情報は不十分であり,特に低トークン保持率において,最適なパフォーマンスをもたらす。 (ii) 全層に集約された注目マップのようなグローバルな注意情報は,より効果的に重要なトークンを保存し,攻撃的プルーニングの下で同等のパフォーマンスを維持する。 (iii) 小さなVLMから集約されたグローバルな注意マップは,大きなVLMとよく似ている。
論文 参考訳(メタデータ) (2024-12-04T13:56:44Z) - ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification [29.163757099307553]
大規模視覚言語モデル(LVLM)の効率は、プリフィルフェーズにおける注意機構の計算ボトルネックによって制約される。
本稿では,重要なトークンの動的比割り当て戦略を通じて,LVLM向けに設計された効率的な推論フレームワークZipVLを提案する。
論文 参考訳(メタデータ) (2024-10-11T07:24:21Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。