論文の概要: Progressive Semantic Communication for Efficient Edge-Cloud Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.26508v1
- Date: Wed, 29 Apr 2026 10:16:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.354013
- Title: Progressive Semantic Communication for Efficient Edge-Cloud Vision-Language Models
- Title(参考訳): 効率的なエッジクラウドビジョンランゲージモデルのためのプログレッシブセマンティック通信
- Authors: Cyril Shih-Huan Hsu, Wig Yuan-Cheng Cheng, Chrysa Papagianni,
- Abstract要約: VLM(Vision-Language Models)は、リソース制約のある組み込みプラットフォームへのデプロイが困難である。
クラウドへの完全なオフロード推論は、帯域幅に制限のある環境では現実的ではないことが多い。
エッジクラウドVLM推論のためのプログレッシブセマンティック通信フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.3004066195320147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying Vision-Language Models (VLMs) on edge devices remains challenging due to their substantial computational and memory demands, which exceed the capabilities of resource-constrained embedded platforms. Conversely, fully offloading inference to the cloud is often impractical in bandwidth-limited environments, where transmitting raw visual data introduces substantial latency overhead. While recent edge-cloud collaborative architectures attempt to partition VLM workloads across devices, they typically rely on transmitting fixed-size representations, lacking adaptability to dynamic network conditions and failing to fully exploit semantic redundancy. In this paper, we propose a progressive semantic communication framework for edge-cloud VLM inference, using a Meta AutoEncoder that compresses visual tokens into adaptive, progressively refinable representations, enabling plug-and-play deployment with off-the-shelf VLMs without additional fine-tuning. This design allows flexible transmission at different information levels, providing a controllable trade-off between communication cost and semantic fidelity. We implement a full end-to-end edge-cloud system comprising an embedded NXP i.MX95 platform and a GPU server, communicating over bandwidth-constrained networks. Experimental results show that, at 1 Mbps uplink, the proposed progressive scheme significantly reduces network latency compared to full-edge and full-cloud solutions, while maintaining high semantic consistency even under high compression. The implementation code will be released upon publication at https://github.com/open-ep/ProSemComVLM.
- Abstract(参考訳): エッジデバイスにVLM(Vision-Language Models)をデプロイすることは、リソース制約された組み込みプラットフォームの能力を超える、計算とメモリの要求がかなり大きいため、依然として困難である。
逆に、完全にクラウドにオフロードする推論は、生のビジュアルデータを送信することで、かなりの遅延オーバヘッドが発生する帯域幅制限環境では現実的ではないことが多い。
最近のエッジクラウドのコラボレーティブアーキテクチャは、VLMワークロードをデバイス間で分割しようとするが、一般的には、固定サイズの表現の送信、動的ネットワーク条件への適応性の欠如、セマンティック冗長性を完全に活用できないことに依存している。
本稿では,視覚トークンを適応的かつ漸進的に再定義可能な表現に圧縮するメタオートエンコーダを用いて,エッジクラウドVLM推論のためのプログレッシブセマンティック通信フレームワークを提案する。
この設計により、異なる情報レベルで柔軟な伝送が可能となり、通信コストとセマンティックフィリティのトレードオフが制御可能となる。
我々は,NXP i.MX95 プラットフォームと GPU サーバを組込み,帯域幅に制約のあるネットワーク上で通信する,エンド・ツー・エンドのエッジ・クラウド・システムを実装した。
実験結果から,提案手法は1Mbpsのアップリンクにおいて,高い圧縮条件下でも高いセマンティック一貫性を維持しつつ,フルエッジおよびフルクラウドソリューションと比較してネットワーク遅延を著しく低減することが示された。
実装コードはhttps://github.com/open-ep/ProSemComVLMで公開される。
関連論文リスト
- WISV: Wireless-Informed Semantic Verification for Distributed Speculative Decoding in Device-Edge LLM Inference [56.297697169678095]
WISV(Wireless-Informed Semantic Verification)は、分散投機的復号化フレームワークである。
WISVは最大60.8%の許容長の増加、37.3%の対話ラウンドの削減、31.4%のエンドツーエンドレイテンシの改善を実現している。
NVIDIA Jetson AGX OrinとA40搭載サーバからなるハードウェアテストベッド上でWISVを検証する。
論文 参考訳(メタデータ) (2026-04-20T01:29:56Z) - Feature Coding for Scalable Machine Vision [0.8240941653749977]
ディープニューラルネットワーク(DNN)は、現代的なマシンビジョンを駆動するが、高い計算要求のためにエッジデバイスにデプロイすることは困難である。
本稿では特徴符号化テストモデル(FCTM)の設計と性能について述べる。
FCMは、帯域幅に制限されたプライバシに敏感なコンシューマアプリケーションにインテリジェントな機能を効率よく、スケーラブルにデプロイするためのパスを提供する。
論文 参考訳(メタデータ) (2025-12-11T01:58:07Z) - Why Should the Server Do It All?: A Scalable, Versatile, and Model-Agnostic Framework for Server-Light DNN Inference over Massively Distributed Clients via Training-Free Intermediate Feature Compression [6.932768187544348]
スプリットコンピューティングにおける通信負荷とサーバ負荷の両方を削減するためにIFを圧縮する、リトレーニングフリーでアーキテクチャに依存しないフレームワークであるSLICERを紹介した。
標準的なビジョンとLLMワークロード全体にわたって、SLICERはアップリンクボリュームを最大10倍、サーバGPU時間を最大4.4倍削減する。
論文 参考訳(メタデータ) (2025-11-03T08:44:13Z) - CoSense-LLM: Semantics at the Edge with Cost- and Uncertainty-Aware Cloud-Edge Cooperation [0.0]
CoSense-LLMは、連続したマルチモーダルセンサストリームをコンパクトなセマンティックトークンに変換するエッジファーストフレームワークである。
システムは、ページ化またはストリーミングKVキャッシュ、Flashスタイルのカーネル、投機的復号化、量子化されたLoRAアダプタなど、モダンなサービス最適化で動作する。
論文 参考訳(メタデータ) (2025-10-22T15:16:56Z) - Have We Scene It All? Scene Graph-Aware Deep Point Cloud Compression [18.40946383877556]
セマンティックシーングラフに基づくディープ圧縮フレームワークを提案する。
このフレームワークは最先端の圧縮速度を実現し,データサイズを最大98%削減することを示す。
マルチロボットのポーズグラフ最適化やマップマージといった下流アプリケーションをサポートする。
論文 参考訳(メタデータ) (2025-10-09T17:45:09Z) - Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [54.53508601749513]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。
圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。
その結果,TOFCはデータ転送オーバーヘッドを最大52%削減し,システム遅延を最大63%削減できることがわかった。
論文 参考訳(メタデータ) (2025-03-17T08:37:22Z) - AI Flow at the Network Edge [58.31090055138711]
AI Flowは、デバイス、エッジノード、クラウドサーバ間で利用可能な異種リソースを共同で活用することで、推論プロセスを合理化するフレームワークである。
この記事では、AI Flowのモチベーション、課題、原則を特定するためのポジションペーパーとして機能する。
論文 参考訳(メタデータ) (2024-11-19T12:51:17Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。