論文の概要: LQA: A Lightweight Quantized-Adaptive Framework for Vision-Language Models on the Edge
- arxiv url: http://arxiv.org/abs/2602.07849v1
- Date: Sun, 08 Feb 2026 07:37:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.832299
- Title: LQA: A Lightweight Quantized-Adaptive Framework for Vision-Language Models on the Edge
- Title(参考訳): LQA:エッジ上のビジョン言語モデルのための軽量量子化適応フレームワーク
- Authors: Xin Wang, Hualin Zhou, Sheng Guang Wang, Ting Dang, Yu Zhang, Hong Jia, Tao Gu,
- Abstract要約: 視覚言語モデル(VLM)のための軽量で量子化された適応型フレームワークを提案する。
本稿では、SHQ(Selective Hybrid Quantization)と、リソース制約のあるハードウェア上での堅牢で効率的なVLMデプロイメントを実現するために、量子化・勾配なし適応機構を導入する。
実験の結果、LQAは全体の適応性能を4.5%改善し、メモリ使用量を減らし、勾配ベースのTTA法よりも大幅に向上した。
- 参考スコア(独自算出の注目度): 12.772499009055194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying Vision-Language Models (VLMs) on edge devices is challenged by resource constraints and performance degradation under distribution shifts. While test-time adaptation (TTA) can counteract such shifts, existing methods are too resource-intensive for on-device deployment. To address this challenge, we propose LQA, a lightweight, quantized-adaptive framework for VLMs that combines a modality-aware quantization strategy with gradient-free test-time adaptation. We introduce Selective Hybrid Quantization (SHQ) and a quantized, gradient-free adaptation mechanism to enable robust and efficient VLM deployment on resource-constrained hardware. Experiments across both synthetic and real-world distribution shifts show that LQA improves overall adaptation performance by 4.5\%, uses less memory than full-precision models, and significantly outperforms gradient-based TTA methods, achieving up to 19.9$\times$ lower memory usage across seven open-source datasets. These results demonstrate that LQA offers a practical pathway for robust, privacy-preserving, and efficient VLM deployment on edge devices.
- Abstract(参考訳): エッジデバイスにVLM(Vision-Language Models)をデプロイすることは、リソース制約や分散シフト時の性能低下によって困難である。
テスト時間適応(TTA)はそのようなシフトに対処できるが、既存のメソッドはデバイス上でのデプロイメントにはリソース集約的すぎる。
この課題に対処するために,モダリティを考慮した量子化戦略と勾配のないテスト時間適応を組み合わせた,軽量なVLM用量子化適応フレームワークLQAを提案する。
本稿では、SHQ(Selective Hybrid Quantization)と、リソース制約のあるハードウェア上での堅牢で効率的なVLMデプロイメントを実現するために、量子化・勾配なし適応機構を導入する。
合成および実世界の分散シフトによる実験では、LQAは全体の適応性能を4.5\%改善し、完全精度モデルよりもメモリ使用量が少なく、勾配ベースのTTA手法よりも大幅に優れており、7つのオープンソースデータセットで最大19.9$\times$低メモリ使用率を実現している。
これらの結果は、LQAがエッジデバイス上での堅牢で、プライバシーを保護し、効率的なVLMデプロイメントのための実践的な経路を提供することを示している。
関連論文リスト
- AIVD: Adaptive Edge-Cloud Collaboration for Accurate and Efficient Industrial Visual Detection [15.419663374345845]
本稿では,高精度な局所化と高品質なセマンティック生成を実現するためのAIVDフレームワークを提案する。
エッジトリミングボックスノイズとシナリオ変動に対するクラウドMLLMのロバスト性を高めるため,我々は効率的な微調整戦略を設計する。
異種エッジデバイスと動的ネットワーク条件間の高いスループットと低レイテンシを維持するため,異種リソースを考慮した動的スケジューリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-01-08T08:56:07Z) - Efficient Onboard Vision-Language Inference in UAV-Enabled Low-Altitude Economy Networks via LLM-Enhanced Optimization [61.55616421408666]
低高度経済ネットワーク(LAENets)は、航空監視、環境検知、セマンティックデータ収集など、様々な応用を可能にしている。
オンボードビジョン(VLM)は、リアルタイムな推論を提供するが、オンボードの動的ネットワーク条件は限られている。
動的LEENet条件下での通信効率を向上させるUAV対応LEENetシステムを提案する。
論文 参考訳(メタデータ) (2025-10-11T05:11:21Z) - Small Aid, Big Leap: Efficient Test-Time Adaptation for Vision-Language Models with AdaptNet [5.977269026037707]
テスト時適応(TTA)は、推論中に視覚言語モデル(VLM)の一般化能力を高める重要な手法として登場した。
本稿では,より軽量で学習しやすいAdaptNetを活用して,効率よくスケーラブルなモデル適応を実現する,新しいアダプタベースのTTAフレームワークであるSAILを紹介する。
論文 参考訳(メタデータ) (2025-06-03T09:16:51Z) - LeanTTA: A Backpropagation-Free and Stateless Approach to Quantized Test-Time Adaptation on Edge Devices [13.355021314836852]
本稿では、エッジデバイスに適した量子化テスト時間適応のための、バックプロパゲーションフリーでステートレスな新しいフレームワークであるLeanTTAを紹介する。
バックプロパゲーションなしで正規化統計を動的に更新することで計算コストを最小化する。
我々は,センサのモダリティにまたがる枠組みを検証し,最先端のTTA手法よりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-03-20T06:27:09Z) - LSAQ: Layer-Specific Adaptive Quantization for Large Language Model Deployment [12.80921403367322]
大規模言語モデル(LLM)は、様々な領域で例外的なパフォーマンスを示す。
LLMのサイズとメモリ要件を削減した量子化技術は、リソース制限されたエッジデバイスにLLMをデプロイするのに有効である。
適応量子化システムLSAQ(Layer-Specific Adaptive Quantization)を提案する。
論文 参考訳(メタデータ) (2024-12-24T03:43:15Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - HAFLQ: Heterogeneous Adaptive Federated LoRA Fine-tuned LLM with Quantization [55.972018549438964]
LLM(Federated Fine-tuning of Pre-trained Large Language Models)は、さまざまなデータセットにまたがるタスク固有の適応を可能にすると同時に、プライバシの保護を可能にする。
本研究では, HAFLQ (Heterogeneous Adaptive Federated Low-Rank Adaptation Fine-tuned LLM with Quantization) を提案する。
テキスト分類タスクの実験結果から,HAFLQはメモリ使用量を31%削減し,通信コストを49%削減し,精度を50%向上し,ベースライン法よりも高速な収束を実現している。
論文 参考訳(メタデータ) (2024-11-10T19:59:54Z) - AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文 参考訳(メタデータ) (2024-07-17T18:38:48Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。