論文の概要: CoVSpec: Efficient Device-Edge Co-Inference for Vision-Language Models via Speculative Decoding
- arxiv url: http://arxiv.org/abs/2605.02218v1
- Date: Mon, 04 May 2026 04:43:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.140285
- Title: CoVSpec: Efficient Device-Edge Co-Inference for Vision-Language Models via Speculative Decoding
- Title(参考訳): CoVSpec: 投機的復号化による視覚言語モデルの効率的なデバイスエッジ共推論
- Authors: Yuanyuan Jia, Shunpu Tang, Qianqian Yang,
- Abstract要約: CoVSpecは視覚言語モデル(VLM)推論のための効率的な協調的投機的復号化フレームワークである。
我々は,CoVSpecがターゲットのみの推論よりも最大2.21倍高いスループットを実現し,ベースラインと比較して通信オーバーヘッドを96%以上削減できることを示す。
- 参考スコア(独自算出の注目度): 5.680072178589744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) have demonstrated strong capabilities in multimodal perception and reasoning. However, deploying large VLMs on mobile devices remains challenging due to their substantial computational and memory demands. A practical alternative is device-edge co-inference, where a lightweight draft VLM on the mobile device collaborates with a larger target VLM on the edge server via speculative decoding. Nevertheless, directly extending speculative decoding to VLMs suffers from severe inefficiency due to excessive visual-token computation and high communication overhead. To address these challenges, we propose CoVSpec, an efficient collaborative speculative decoding framework for VLM inference. Specifically, we first develop a training-free visual token reduction framework that prunes redundant visual tokens on the mobile device by jointly considering query relevance, token activity, and low-rank dependency. Moreover, we design an adaptive drafting strategy that dynamically adjusts both the verification frequency and the draft length. In addition, we introduce a parallel branching mechanism with decoupled verification-correction to improve draft-side utilization during target-side verification and reduce correction-related transmission overhead. Experiments on multiple benchmarks show that CoVSpec achieves up to 2.21x higher throughput than target-only inference and reduces communication overhead by more than 96% compared with baselines, without compromising task accuracy.
- Abstract(参考訳): 視覚言語モデル(VLM)はマルチモーダル認識と推論において強力な能力を示している。
しかしながら、モバイルデバイスに大規模なVLMをデプロイすることは、計算とメモリの要求がかなり大きいため、依然として困難である。
モバイルデバイス上の軽量なドラフトVLMは、投機的復号化を通じてエッジサーバ上のより大きなターゲットVLMと協調する。
それでも、投機的復号法を直接VLMに拡張することは、過度な視覚的トーケン計算と高い通信オーバーヘッドにより、深刻な非効率に悩まされる。
これらの課題に対処するため,我々は,VLM推論のための効率的な協調的投機的復号化フレームワークであるCoVSpecを提案する。
具体的には、クエリ関連性、トークンアクティビティ、低ランク依存を共同で検討することにより、モバイルデバイス上で冗長な視覚トークンを発生させる、トレーニング不要な視覚トークン削減フレームワークを最初に開発する。
さらに、検証周波数とドラフト長の両方を動的に調整する適応的なドラフト戦略を設計する。
さらに,分離された検証補正を用いた並列分岐機構を導入し,目標側検証時のドラフト側利用を改善するとともに,修正関連送信オーバーヘッドを低減する。
複数のベンチマークの実験では、CoVSpecはターゲットのみの推論よりも最大2.21倍高いスループットを実現し、タスクの精度を損なうことなく、ベースラインと比較して通信オーバーヘッドを96%以上削減している。
関連論文リスト
- CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning [79.07656918674684]
CoME-VLは、対照的に訓練された視覚エンコーダと自己教師型DINOエンコーダを統合するモジュラーフュージョンフレームワークである。
提案手法は,RefCOCOのベースライン上での精度を高いマージンで向上させながら,検出のための最先端性能を実現する。
論文 参考訳(メタデータ) (2026-04-03T17:59:51Z) - Efficient Reasoning on the Edge [22.390056779820295]
大きな言語モデル (LLM) とチェーン・オブ・シークレットの推論は、複雑な問題解決タスクにおいて最先端のパフォーマンスを達成する。
彼らの冗長な推論トレースと大きなコンテキスト要件は、エッジデプロイメントにとって実用的ではない。
そこで本研究では,LoRAアダプタと教師付き微調整を組み合わせた小型LLMの推論を実現するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2026-03-17T17:59:51Z) - Empirical Recipes for Efficient and Compact Vision-Language Models [54.92440500651415]
リソース制約のある設定における視覚言語モデル(VLM)は低レイテンシと高スループットを必要とする。
実験的なエンドツーエンドの効率分析と系統的なプロファイル推論を行い、主要なボトルネックを特定します。
精度を保ちながらレイテンシを大幅に低減する,コンパクトなVLMに適した最適化レシピを開発した。
論文 参考訳(メタデータ) (2026-03-17T17:17:40Z) - MURE: Hierarchical Multi-Resolution Encoding via Vision-Language Models for Visual Document Retrieval [111.99106496142474]
Visual Document Retrieval (VDR)は、微細な視覚的詳細とグローバルな文書構造の両方をキャプチャする表現を必要とする。
既存のVDRモデルは、高解像度文書を処理する際に効率と効率のバランスをとるのに苦労する。
本稿では,X-VisEmbパラダイムを提案する。X-VisEmbパラダイムは,多分解能サンプリングと符号化から,粒度横断的特徴融合から適応的表現蒸留へと進展する。
論文 参考訳(メタデータ) (2026-03-07T15:17:22Z) - Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders [40.81958598891815]
ビジョン言語モデル(VLM)の開発は、モデルのサイズのスケーリングに大きく依存している。
本稿では,テキストのみのLLMによる視覚エンコーダPenguin-VLを提案する。
実験の結果,ペンギンエンコーダは従来のコントラスト前訓練に優れた代替手段であることがわかった。
論文 参考訳(メタデータ) (2026-03-06T18:58:04Z) - ViTCoP: Accelerating Large Vision-Language Models via Visual and Textual Semantic Collaborative Pruning [8.933549837045932]
大きなビジョンランゲージモデルは、視覚トークンの冗長性のために高い計算コストを発生させる。
視覚エンコーダの冗長性フィルタリングと大規模言語モデル内の段階的協調処理を組み合わせた視覚的・テキスト的協調処理フレームワーク(ViTCoP)を提案する。
論文 参考訳(メタデータ) (2026-01-25T12:47:30Z) - SLED: A Speculative LLM Decoding Framework for Efficient Edge Serving [7.69991252191073]
acronymは、軽量エッジデバイスが様々なドラフトモデルを使用して、複数の候補トークンをローカルにドラフトできるフレームワークである。
単一の共有エッジサーバは、より正確なターゲットモデルを用いてトークンを検証する。
Jetson Orin Nano、Raspberry Pi 4B/5、Nvidia A100 GPUを搭載したエッジサーバを使った最初の実験は、大きなメリットを示している。
論文 参考訳(メタデータ) (2025-06-11T04:55:54Z) - Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [54.53508601749513]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。
圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。
その結果,TOFCはデータ転送オーバーヘッドを最大52%削減し,システム遅延を最大63%削減できることがわかった。
論文 参考訳(メタデータ) (2025-03-17T08:37:22Z) - EVEv2: Improved Baselines for Encoder-Free Vision-Language Models [72.07868838411474]
既存のエンコーダフリービジョン言語モデル(VLM)は、エンコーダベースモデルと性能ギャップを狭めている。
我々は,主流のエンコーダをベースとしたVLMと競合するエンコーダフリーVLMの効率的な戦略を開発する。
統一モデルにおいて、視覚と言語を適切に階層的に関連付けることで、モダリティ間の干渉を減少させることを示す。
論文 参考訳(メタデータ) (2025-02-10T18:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。