論文の概要: Aligned Vector Quantization for Edge-Cloud Collabrative Vision-Language Models
- arxiv url: http://arxiv.org/abs/2411.05961v1
- Date: Fri, 08 Nov 2024 20:48:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:11:54.124393
- Title: Aligned Vector Quantization for Edge-Cloud Collabrative Vision-Language Models
- Title(参考訳): エッジクラウド協調ビジョンランゲージモデルのための配向ベクトル量子化
- Authors: Xiao Liu, Lijun Zhang, Deepak Ganesan, Hui Guan,
- Abstract要約: 我々はLLaVA-AlignedVQと呼ばれるエッジクラウド協調VQAシステムを導入する。
LLaVA-AlignedVQは、中間特性を効率的に圧縮する新しいアラインドベクトル量子化アルゴリズム(AlignedVQ)を備えている。
実験により、LLaVA-AlignedVQは中間特性の約1365倍圧縮速度を達成することが示された。
- 参考スコア(独自算出の注目度): 19.938589623698338
- License:
- Abstract: Vision Language Models (VLMs) are central to Visual Question Answering (VQA) systems and are typically deployed in the cloud due to their high computational demands. However, this cloud-only approach underutilizes edge computational resources and requires significant bandwidth for transmitting raw images. In this paper, we introduce an edge-cloud collaborative VQA system, called LLaVA-AlignedVQ, which features a novel Aligned Vector Quantization algorithm (AlignedVQ) that efficiently compress intermediate features without compromising accuracy to support partitioned execution. Our experiments demonstrate that LLaVA-AlignedVQ achieves approximately 1365x compression rate of intermediate features, reducing data transmission overhead by 96.8% compared to transmitting JPEG90-compressed images to the cloud. LLaVA-AlignedVQ achieves an inference speedup of 2-15x while maintaining high accuracy, remaining within -2.23% to +1.6% of the original model's accuracy performance across eight VQA datasets, compared to the cloud-only solution.
- Abstract(参考訳): 視覚言語モデル(VLM)は、視覚質問回答(VQA)システムの中心であり、通常は高い計算要求のためにクラウドにデプロイされる。
しかし、このクラウドのみのアプローチはエッジ計算資源を過小評価し、生画像の伝送にかなりの帯域幅を必要とする。
本稿では,分割実行をサポートするための精度を犠牲にすることなく,中間機能を効率的に圧縮する新しいアラインドベクトル量子化アルゴリズム(AlignedVQ)を特徴とする,LLaVA-AlignedVQと呼ばれるエッジクラウド協調型VQAシステムを提案する。
実験により, LLaVA-AlignedVQは中間特性の約1365倍圧縮速度を実現し, JPEG90圧縮画像のクラウドへの送信と比較してデータ伝送オーバーヘッドを96.8%削減した。
LLaVA-AlignedVQは、クラウドのみのソリューションと比較して、8つのVQAデータセットにおけるオリジナルのモデルの精度性能の-2.23%から+1.6%以内の精度を維持しながら、推論速度を2-15倍に向上させる。
関連論文リスト
- Distributed Semantic Segmentation with Efficient Joint Source and Task Decoding [18.8803233019656]
ディープニューラルネットワーク(DNN)は、エッジデバイス上のネットワークの一部と、大規模クラウドプラットフォーム上での他部分を実行する。
そこで本研究では,クラウド上のネットワークサイズを小さくする目的で,共同ソースとタスクデコーディングを提案する。
本研究では,分散セマンティックセグメンテーションSOTAを幅広い交差点で実現し,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-07-15T20:20:04Z) - IDF-CR: Iterative Diffusion Process for Divide-and-Conquer Cloud Removal in Remote-sensing Images [55.40601468843028]
雲除去のための反復拡散過程(IDF-CR)を提案する。
IDF-CRは、ピクセル空間と潜在空間に対処する2段階のモデルに分けられる。
潜時空間の段階では、拡散モデルは低品質の雲の除去を高品質のクリーンな出力に変換する。
論文 参考訳(メタデータ) (2024-03-18T15:23:48Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - Distribution-aware Interactive Attention Network and Large-scale Cloud
Recognition Benchmark on FY-4A Satellite Image [24.09239785062109]
我々は,正確なクラウド認識のための新しいデータセットを開発した。
領域適応法を用いて,70,419個の画像ラベル対を投影,時間分解能,空間分解能の点で整列する。
また,高解像度ブランチと並列クロスブランチにより画素レベルの詳細を保存できる分散対応インタラクティブアテンションネットワーク(DIAnet)を導入する。
論文 参考訳(メタデータ) (2024-01-06T09:58:09Z) - Simple Baselines for Projection-based Full-reference and No-reference
Point Cloud Quality Assessment [60.2709006613171]
投影型ポイントクラウド品質評価(PCQA)のための簡易ベースラインを提案する。
我々は、全参照(FR)タスクと非参照(NR)PCQAタスクの両方に対して、点雲から共通立方体状の投影プロセスによって得られる多重射影を用いる。
ICIP 2023 PCVQA Challengeに参加して,5トラック中4トラックで首位を獲得した。
論文 参考訳(メタデータ) (2023-10-26T04:42:57Z) - Boosting Point Clouds Rendering via Radiance Mapping [49.24193509772339]
コンパクトなモデル設計でポイントクラウドレンダリングの画質向上に重点を置いている。
我々はNeRF表現を1ピクセルあたりの単一評価しか必要としない空間マッピング関数に単純化する。
提案手法は点雲上での最先端のレンダリングを実現し,先行研究を顕著なマージンで上回った。
論文 参考訳(メタデータ) (2022-10-27T01:25:57Z) - Neighbourhood Representative Sampling for Efficient End-to-end Video
Quality Assessment [60.57703721744873]
リアルタイムビデオの高解像度化は、VQA(Deep Video Quality Assessment)の効率性と精度のジレンマを示す
そこで本研究では,空間時空間格子型ミニキューブサンプリング(St-GMS)を統一的に提案し,新しいタイプのフラグメントを抽出する。
フラグメントとFANetにより、提案された効率的なエンドツーエンドのFAST-VQAとFasterVQAは、既存のVQAベンチマークよりも大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2022-10-11T11:38:07Z) - FAST-VQA: Efficient End-to-end Video Quality Assessment with Fragment
Sampling [54.31355080688127]
現在のDeep Video Quality Assessment (VQA) 法は通常、高解像度ビデオを評価する際に高い計算コストがかかる。
そこで我々はGrid Mini-patch Smpling (GMS)を提案する。
フラグメント・アテンション・ネットワーク(FANet)は,フラグメントを入力として扱うように設計されている。
FAST-VQAは1080P高解像度ビデオで99.5%のFLOPを削減し、最先端の精度を約10%向上させる。
論文 参考訳(メタデータ) (2022-07-06T11:11:43Z) - Identity Preserving Loss for Learned Image Compression [0.0]
本研究は,高圧縮率を実現するために,ドメイン固有の特徴を学習するエンドツーエンド画像圧縮フレームワークを提案する。
本稿では,CRF-23 HEVC圧縮の38%と42%のビット・パー・ピクセル(BPP)値が得られる新しいID保存再構成(IPR)ロス関数を提案する。
CRF-23 HEVC圧縮の38%の低いBPP値を保ちながら、未確認の認識モデルを用いてLFWデータセットの at-par 認識性能を示す。
論文 参考訳(メタデータ) (2022-04-22T18:01:01Z) - Feature Compression for Rate Constrained Object Detection on the Edge [20.18227104333772]
この問題を解決するための新たなアプローチは、ニューラルネットワークの計算をエッジサーバのコンピューティングリソースにオフロードすることだ。
本研究では、YOLOオブジェクト検出モデルの計算の一部をオフロードする「分割計算」システムについて検討する。
我々は、速度制約下でのオブジェクト検出精度を最適化するために、YOLOモデルとともに特徴圧縮および非圧縮モジュールを訓練する。
論文 参考訳(メタデータ) (2022-04-15T03:39:30Z) - Multiscale deep context modeling for lossless point cloud geometry
compression [11.69103847045569]
MSVoxelDNNは、点群ジオメトリ圧縮のための深い生成的アプローチです。
これはMPEG G-PCCと比較して大幅に減少する。
論文 参考訳(メタデータ) (2021-04-20T09:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。