論文の概要: Empirical Recipes for Efficient and Compact Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.16987v1
- Date: Tue, 17 Mar 2026 17:17:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.32381
- Title: Empirical Recipes for Efficient and Compact Vision-Language Models
- Title(参考訳): 効率的かつコンパクトなビジョンランゲージモデルのための実証的レシピ
- Authors: Jiabo Huang, Zhizhong Li, Sina Sajadmanesh, Weiming Zhuang, Lingjuan Lyu,
- Abstract要約: リソース制約のある設定における視覚言語モデル(VLM)は低レイテンシと高スループットを必要とする。
実験的なエンドツーエンドの効率分析と系統的なプロファイル推論を行い、主要なボトルネックを特定します。
精度を保ちながらレイテンシを大幅に低減する,コンパクトなVLMに適した最適化レシピを開発した。
- 参考スコア(独自算出の注目度): 54.92440500651415
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deploying vision-language models (VLMs) in resource-constrained settings demands low latency and high throughput, yet existing compact VLMs often fall short of the inference speedups their smaller parameter counts suggest. To explain this discrepancy, we conduct an empirical end-to-end efficiency analysis and systematically profile inference to identify the dominant bottlenecks. Based on these findings, we develop optimization recipes tailored to compact VLMs that substantially reduce latency while preserving accuracy. These techniques cut time to first token (TTFT) by 53% on InternVL3-2B and by 93% on SmolVLM-256M. Our recipes are broadly applicable across both VLM architectures and common serving frameworks, providing practical guidance for building efficient VLM systems. Beyond efficiency, we study how to extend compact VLMs with structured perception outputs and introduce the resulting model family, ArgusVLM. Across diverse benchmarks, ArgusVLM achieves strong performance while maintaining a compact and efficient design.
- Abstract(参考訳): リソース制約のある設定で視覚言語モデル(VLM)をデプロイするには、低レイテンシと高いスループットを必要とするが、既存のコンパクトなVLMは、より小さなパラメータ数が示す推論のスピードアップに欠けることが多い。
この相違を説明するために、実験的なエンドツーエンド効率分析と系統的プロファイル推論を行い、主要なボトルネックを特定する。
これらの結果に基づき,精度を保ちながらレイテンシを大幅に低減する小型VLMに適した最適化手法を開発した。
これらの技術は、InternVL3-2Bで53%、SmolVLM-256Mで93%短縮された。
我々のレシピは、VLMアーキテクチャと共通サービスフレームワークの両方に広く適用でき、効率的なVLMシステムを構築するための実践的なガイダンスを提供する。
効率性を超えて、構造化された知覚出力でコンパクトなVLMを拡張する方法について検討し、結果のモデルファミリーArgusVLMを紹介した。
様々なベンチマークにおいて、ArgusVLMはコンパクトで効率的な設計を維持しながら、強力なパフォーマンスを実現している。
関連論文リスト
- MHA2MLA-VLM: Enabling DeepSeek's Economical Multi-Head Latent Attention across Vision-Language Models [37.41464628858585]
MHA2MLA-VLMは、市販の視覚言語モデルをMLA(Multi-Head Latent Attention)に変換するためのフレームワークである。
MHA2MLA-VLMは、最小教師付きデータで元のモデル性能を復元し、KVキャッシュのフットプリントを大幅に削減し、KV量子化とシームレスに統合することを示す。
論文 参考訳(メタデータ) (2026-01-16T17:45:34Z) - When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs [4.296395082987112]
L-VLM(Large Vision-Language Models)は、様々な視覚や言語タスクにおいて顕著な性能を示す。
小型ビジョンランゲージモデル (Small Vision-Language Models, S-VLM) は効率性を提供するが、より大きなモデルに比べて大きな性能差がある。
本稿では,S-VLM を体系的に改善する新しいフレームワークである Model Parity Aligner (MPA) を紹介する。
論文 参考訳(メタデータ) (2025-09-20T11:12:23Z) - VLMQ: Efficient Post-Training Quantization for Large Vision-Language Models via Hessian Augmentation [8.891793681316992]
ポストトレーニング量子化(PTQ)は、大規模なモデルを圧縮し、再トレーニングせずに推論を加速するための効果的なアプローチとして登場した。
PTQは大規模言語モデル (LLMs) の文脈で広く研究されているが、視覚言語モデル (VLMs) への適用性はまだ未検討である。
本稿では,VLMQ と呼ばれる VLM に適した PTQ フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-05T11:57:03Z) - IAM: Efficient Inference through Attention Mapping between Different-scale LLMs [74.81417160018856]
IAMフレームワークは、注意計算の高速化とKVキャッシュ使用量の削減という2つの利点を実現する。
IAMはプリフィルを15%高速化し,KVキャッシュ使用量を22.1%削減できることを示す。
論文 参考訳(メタデータ) (2025-07-16T06:39:11Z) - VLMInferSlow: Evaluating the Efficiency Robustness of Large Vision-Language Models as a Service [11.715844075786958]
VLMInferSlowは、現実的なブラックボックス設定において、VLM効率の堅牢性を評価するための新しいアプローチである。
VLMInferSlowは、知覚不能な摂動を伴う逆画像を生成し、計算コストを最大128.47%向上させることを示す。
論文 参考訳(メタデータ) (2025-06-18T08:57:17Z) - A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs [65.00970402080351]
大規模視覚言語モデル(VLM)を加速するための有望なアプローチは、特定のレイヤからの注意マップのような部分的な情報を使用してトークンの重要性を評価し、重要度を低く抑えることである。
i) 重要な視覚的トークンを正確に識別するには,部分的注意情報は不十分であり,特に低トークン保持率において,最適なパフォーマンスをもたらす。 (ii) 全層に集約された注目マップのようなグローバルな注意情報は,より効果的に重要なトークンを保存し,攻撃的プルーニングの下で同等のパフォーマンスを維持する。 (iii) 小さなVLMから集約されたグローバルな注意マップは,大きなVLMとよく似ている。
論文 参考訳(メタデータ) (2024-12-04T13:56:44Z) - Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。
そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文 参考訳(メタデータ) (2023-09-04T09:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。