論文の概要: PEVLM: Parallel Encoding for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2506.19651v2
- Date: Mon, 07 Jul 2025 10:07:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.425952
- Title: PEVLM: Parallel Encoding for Vision-Language Models
- Title(参考訳): PEVLM:視覚言語モデルのための並列符号化
- Authors: Letian Kang, Shixian Luo, Yiqiang Li, Xiaoyang Yu, Shenxuan Zhou, Yong Wu,
- Abstract要約: 我々は,視覚言語モデルのプリフィル効率を高めるために,微調整不要な並列符号化方式である textbfPEVLM を紹介する。
PEVLMは、入力ビデオを共有シンクブロックでコンテキストブロックに分割し、シーケンシャルな位置埋め込みを保持して、注意重量分布をFull-Attentionと整合させる。
実験により、PEVLMは既存の並列符号化手法を一貫して上回り、注目計算で textbf7.47x のスピードアップを達成し、 textbf40% でエンドツーエンドのレイテンシを削減した。
- 参考スコア(独自算出の注目度): 3.669506952334741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have demonstrated strong capabilities in multimodal understanding and generation tasks. However, their application to long video understanding remains hindered by the quadratic complexity of standard attention mechanisms. In this work, we introduce \textbf{PEVLM}, a fine-tuning-free parallel encoding method designed to enhance the prefilling efficiency of VLMs in long video scenarios. PEVLM partitions the input video into context blocks with a shared sink block, while preserving sequential position embeddings to align the attention weight distribution with that of Full-Attention. This design reduces attention complexity from $O((T \times N)^2)$ to $O(T \times N)$ where $T$ is the number of frames and $N$ the number of tokens per frame, without sacrificing accuracy. Extensive experiments across multiple state-of-the-art models and benchmarks demonstrate that PEVLM consistently outperforms existing parallel encoding approaches, achieving up to \textbf{7.47x} speedup in attention computation and reducing end-to-end latency by \textbf{40\%}. Remarkably, PEVLM not only maintains high accuracy, but in some settings even surpasses Full-Attention performance. Under strict latency constraints, it achieves substantial gains, improving accuracy from \textbf{23.26\%} to \textbf{61.03\%}. These results underscore the effectiveness of PEVLM for low-latency, long-context video understanding, making it a promising solution for real-world applications.
- Abstract(参考訳): VLM(Vision-Language Models)は、マルチモーダル理解および生成タスクにおいて強力な機能を示す。
しかし、ビデオの長時間理解へのそれらの応用は、標準的な注意機構の2次複雑さによって妨げられている。
本研究では,長いビデオシナリオにおいて,VLMのプリフィル効率を高めるために,微調整不要な並列符号化方式である \textbf{PEVLM} を紹介する。
PEVLMは、入力ビデオを共有シンクブロックでコンテキストブロックに分割し、シーケンシャルな位置埋め込みを保持して、注意重量分布をFull-Attentionと整合させる。
この設計は、注意の複雑さを$O((T \times N)^2)$から$O(T \times N)$に還元する。
複数の最先端モデルとベンチマークによる広範囲な実験により、PEVLMは既存の並列符号化手法を一貫して上回り、注意計算で \textbf{7.47x} のスピードアップを達成し、 \textbf{40\%} によるエンドツーエンドレイテンシの低減を実現している。
注目すべきは、PEVLMは高い精度を維持するだけでなく、一部の設定ではフルアテンション性能を超えていることだ。
厳密なレイテンシ制約の下では、精度を \textbf{23.26\%} から \textbf{61.03\%} に向上する。
これらの結果は,PEVLMの低レイテンシ・長文ビデオ理解における有効性を裏付けるものであり,実世界のアプリケーションにとって有望なソリューションである。
関連論文リスト
- VLMQ: Efficient Post-Training Quantization for Large Vision-Language Models via Hessian Augmentation [8.891793681316992]
ポストトレーニング量子化(PTQ)は、大規模なモデルを圧縮し、再トレーニングせずに推論を加速するための効果的なアプローチとして登場した。
PTQは大規模言語モデル (LLMs) の文脈で広く研究されているが、視覚言語モデル (VLMs) への適用性はまだ未検討である。
本稿では,VLMQ と呼ばれる VLM に適した PTQ フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-05T11:57:03Z) - Less is More: Token-Efficient Video-QA via Adaptive Frame-Pruning and Semantic Graph Integration [21.69452489173625]
過剰なフレームが文脈の希釈によってパラドックス的に性能を低下させる「レスはそれ以上」現象である。
視覚エコー」は「視覚エコー」という時間的冗長性を有する
AFP"は、ResNet-50とCLIPの機能空間に適応的な階層的クラスタリングアルゴリズムを用いて、これらのエコーを単一の代表に識別し、マージする。
我々の完全なアプローチは、必要なフレームを86.9%まで、合計入力トークンを83.2%まで劇的に削減することを示しています。
論文 参考訳(メタデータ) (2025-08-05T11:31:55Z) - Event-Priori-Based Vision-Language Model for Efficient Visual Understanding [13.540340702321911]
Event-Priori-Based Vision-Language Model (EP-VLM)は、VLM推論効率を改善する。
EP-VLMはダイナミックイベントビジョンから派生した動作先をVLM効率を高めるために使用する。
論文 参考訳(メタデータ) (2025-06-09T10:45:35Z) - LiteVLM: A Low-Latency Vision-Language Model Inference Pipeline for Resource-Constrained Environments [3.5132364723753797]
本稿では,組込みデバイスへのデプロイに最適化された効率的なビジョン・ランゲージ・モデル(VLM)パイプラインを提案する。
パイプラインは、パッチ選択を併用して、無関係なカメラビューをフィルタリングすることにより、計算オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2025-06-09T04:30:25Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - AdaTP: Attention-Debiased Token Pruning for Video Large Language Models [73.70241811066907]
ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は, 映像理解タスクにおいて顕著な成果を上げている。
それらは、複数のビデオフレームから生成される大量の視覚トークンのために、計算上のオーバーヘッドに悩まされることが多い。
AdaTPは2つの専用デバイアスモジュールをパイプラインに統合し、グローバルなアテンションバイアスとローカルなアテンションバイアスをターゲットとする。
論文 参考訳(メタデータ) (2025-05-26T15:08:37Z) - Sparse-to-Dense: A Free Lunch for Lossless Acceleration of Video Understanding in LLMs [25.13186579764434]
Sparse-to-Dense(StD)は、2つの異なるモジュールを統合する新しいデコード戦略である。
StDはチューニング不要のプラグイン・アンド・プレイのソリューションで、最大1.94$times$ビデオ処理のウォールタイムスピードアップを実現している。
論文 参考訳(メタデータ) (2025-05-25T14:09:28Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - MMInference: Accelerating Pre-filling for Long-Context VLMs via Modality-Aware Permutation Sparse Attention [61.025422435235456]
MMInferenceは、長文マルチモーダル入力のプリフィルステージを高速化する動的スパースアテンション手法である。
MMInferenceは, 精度を維持しつつ, 1Mトークンにおいて, プリフィルステージを最大8.3倍高速化することを示す。
論文 参考訳(メタデータ) (2025-04-22T17:59:51Z) - Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [50.214593234229255]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs [65.00970402080351]
大規模視覚言語モデル(VLM)を加速するための有望なアプローチは、特定のレイヤからの注意マップのような部分的な情報を使用してトークンの重要性を評価し、重要度を低く抑えることである。
i) 重要な視覚的トークンを正確に識別するには,部分的注意情報は不十分であり,特に低トークン保持率において,最適なパフォーマンスをもたらす。 (ii) 全層に集約された注目マップのようなグローバルな注意情報は,より効果的に重要なトークンを保存し,攻撃的プルーニングの下で同等のパフォーマンスを維持する。 (iii) 小さなVLMから集約されたグローバルな注意マップは,大きなVLMとよく似ている。
論文 参考訳(メタデータ) (2024-12-04T13:56:44Z) - ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification [29.163757099307553]
大規模視覚言語モデル(LVLM)の効率は、プリフィルフェーズにおける注意機構の計算ボトルネックによって制約される。
本稿では,重要なトークンの動的比割り当て戦略を通じて,LVLM向けに設計された効率的な推論フレームワークZipVLを提案する。
論文 参考訳(メタデータ) (2024-10-11T07:24:21Z) - A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention [43.211427581302715]
大規模言語モデルにおける文脈長を増大させるため,HiP(Hierarchically Pruned Attention)を提案する。
HiPは注意機構の時間的複雑さを$O(T log T)$に減らし、空間的複雑さを$O(T)$に減らし、$T$はシーケンス長である。
HiPは, 劣化を最小限に抑えつつ, プリフィルとデコードの両方のレイテンシとメモリ使用率を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-06-14T08:32:45Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。