論文の概要: Task-Oriented Communication for Human Action Understanding via Edge-Cloud Co-Inference
- arxiv url: http://arxiv.org/abs/2605.07354v1
- Date: Fri, 08 May 2026 07:08:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.876414
- Title: Task-Oriented Communication for Human Action Understanding via Edge-Cloud Co-Inference
- Title(参考訳): エッジクラウドによるヒューマンアクション理解のためのタスク指向コミュニケーション
- Authors: Jingyi Liu, Cheng Yuan, Lijun He, Jun Zhang, Jiawei Shao,
- Abstract要約: スマートセンシングは、ネットワークエッジにおける人間の行動の正確な理解に対する需要が高まっている。
従来のアプローチでは、リソース制約のあるエッジデバイスから強力なクラウドサーバへ、大量のビデオデータを送信する必要がある。
エッジクラウドコラボレーションによるヒューマンアクション理解(TOAU)のためのタスク指向コミュニケーションフレームワークを提案する。
- 参考スコア(独自算出の注目度): 19.901979392669443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The expanding application of smart sensing has created a growing demand for the accurate understanding of human action at the network edge. Traditional approaches require massive video data to be transmitted from resource-constrained edge devices to powerful cloud servers, incurring prohibitive uplink bandwidth consumption and unacceptable latency while raising privacy concerns. To overcome these bottlenecks, we propose a task-oriented communication framework for human action understanding (TOAU) through edge-cloud collaboration. Our framework utilizes a monocular pose estimator to extract continuous joint coordinates from raw videos, followed by a vector quantized variational autoencoder (VQ-VAE) to convert these coordinates into discrete motion tokens. Consequently, only a compact sequence of codebook indices is transmitted over the network, consuming as few as 9 bits per frame and avoiding privacy leakages. At the cloud server, a lightweight projector aligns these motion tokens with the embedding space of a large vision-language model (VLM) to facilitate complex action understanding, which is trained with an efficient instruction tuning paradigm. Comprehensive evaluations on three benchmarks demonstrate that our TOAU system reduces the transmission payload to approximately 1\% and the system latency to around 20\% compared to video codec-based solutions, while delivering comparable action understanding accuracy.
- Abstract(参考訳): スマートセンシングの応用が拡大し、ネットワークエッジにおける人間の行動の正確な理解に対する需要が高まっている。
従来のアプローチでは、リソース制約のあるエッジデバイスから強力なクラウドサーバに大量のビデオデータを送信する必要がある。
これらのボトルネックを克服するために,エッジクラウドコラボレーションによるヒューマンアクション理解(TOAU)のためのタスク指向コミュニケーションフレームワークを提案する。
筆者らのフレームワークは、単分子ポーズ推定器を用いて生のビデオから連続的な関節座標を抽出し、次いでベクトル量子化変分オートエンコーダ(VQ-VAE)を用いてこれらの座標を離散的な動きトークンに変換する。
その結果、ネットワークを介して送信されるコードブックインデックスは、フレームあたり9ビットまで消費され、プライバシの漏洩を避けることができる。
クラウドサーバにおいて、軽量プロジェクタは、これらのモーショントークンを大きな視覚言語モデル(VLM)の埋め込み空間と整合させ、複雑なアクション理解を促進する。
3つのベンチマークの総合評価から,TOAUシステムでは,映像コーデックベースのソリューションと比較して伝送ペイロードを約1倍に削減し,システム遅延を約20倍に削減し,動作理解の精度に匹敵する結果が得られた。
関連論文リスト
- Progressive Semantic Communication for Efficient Edge-Cloud Vision-Language Models [0.3004066195320147]
VLM(Vision-Language Models)は、リソース制約のある組み込みプラットフォームへのデプロイが困難である。
クラウドへの完全なオフロード推論は、帯域幅に制限のある環境では現実的ではないことが多い。
エッジクラウドVLM推論のためのプログレッシブセマンティック通信フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-29T10:16:06Z) - WISV: Wireless-Informed Semantic Verification for Distributed Speculative Decoding in Device-Edge LLM Inference [56.297697169678095]
WISV(Wireless-Informed Semantic Verification)は、分散投機的復号化フレームワークである。
WISVは最大60.8%の許容長の増加、37.3%の対話ラウンドの削減、31.4%のエンドツーエンドレイテンシの改善を実現している。
NVIDIA Jetson AGX OrinとA40搭載サーバからなるハードウェアテストベッド上でWISVを検証する。
論文 参考訳(メタデータ) (2026-04-20T01:29:56Z) - Feature Coding for Scalable Machine Vision [0.8240941653749977]
ディープニューラルネットワーク(DNN)は、現代的なマシンビジョンを駆動するが、高い計算要求のためにエッジデバイスにデプロイすることは困難である。
本稿では特徴符号化テストモデル(FCTM)の設計と性能について述べる。
FCMは、帯域幅に制限されたプライバシに敏感なコンシューマアプリケーションにインテリジェントな機能を効率よく、スケーラブルにデプロイするためのパスを提供する。
論文 参考訳(メタデータ) (2025-12-11T01:58:07Z) - CoSense-LLM: Semantics at the Edge with Cost- and Uncertainty-Aware Cloud-Edge Cooperation [0.0]
CoSense-LLMは、連続したマルチモーダルセンサストリームをコンパクトなセマンティックトークンに変換するエッジファーストフレームワークである。
システムは、ページ化またはストリーミングKVキャッシュ、Flashスタイルのカーネル、投機的復号化、量子化されたLoRAアダプタなど、モダンなサービス最適化で動作する。
論文 参考訳(メタデータ) (2025-10-22T15:16:56Z) - Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [54.53508601749513]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。
圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。
その結果,TOFCはデータ転送オーバーヘッドを最大52%削減し,システム遅延を最大63%削減できることがわかった。
論文 参考訳(メタデータ) (2025-03-17T08:37:22Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。