論文の概要: Task-Oriented Communication for Edge Video Analytics
- arxiv url: http://arxiv.org/abs/2211.14049v3
- Date: Mon, 1 Apr 2024 14:38:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 14:11:24.395736
- Title: Task-Oriented Communication for Edge Video Analytics
- Title(参考訳): エッジビデオ分析のためのタスク指向コミュニケーション
- Authors: Jiawei Shao, Xinjie Zhang, Jun Zhang,
- Abstract要約: 本稿では,エッジビデオ分析のためのタスク指向通信フレームワークを提案する。
複数のデバイスが視覚センサデータを収集し、その情報機能をエッジサーバに送信して処理する。
提案手法は,映像データのタスク関連情報を効果的に符号化し,既存の手法よりも高いレート性能のトレードオフを実現する。
- 参考スコア(独自算出の注目度): 11.03999024164301
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the development of artificial intelligence (AI) techniques and the increasing popularity of camera-equipped devices, many edge video analytics applications are emerging, calling for the deployment of computation-intensive AI models at the network edge. Edge inference is a promising solution to move the computation-intensive workloads from low-end devices to a powerful edge server for video analytics, but the device-server communications will remain a bottleneck due to the limited bandwidth. This paper proposes a task-oriented communication framework for edge video analytics, where multiple devices collect the visual sensory data and transmit the informative features to an edge server for processing. To enable low-latency inference, this framework removes video redundancy in spatial and temporal domains and transmits minimal information that is essential for the downstream task, rather than reconstructing the videos at the edge server. Specifically, it extracts compact task-relevant features based on the deterministic information bottleneck (IB) principle, which characterizes a tradeoff between the informativeness of the features and the communication cost. As the features of consecutive frames are temporally correlated, we propose a temporal entropy model (TEM) to reduce the bitrate by taking the previous features as side information in feature encoding. To further improve the inference performance, we build a spatial-temporal fusion module at the server to integrate features of the current and previous frames for joint inference. Extensive experiments on video analytics tasks evidence that the proposed framework effectively encodes task-relevant information of video data and achieves a better rate-performance tradeoff than existing methods.
- Abstract(参考訳): 人工知能(AI)技術の開発とカメラ搭載デバイスの普及により、多くのエッジビデオ分析アプリケーションが登場し、ネットワークエッジに計算集約型AIモデルを配置するよう呼びかけている。
エッジ推論は、計算集約的なワークロードをローエンドのデバイスからビデオ分析のための強力なエッジサーバに移行するための、有望なソリューションである。
本稿では,エッジビデオ分析のためのタスク指向通信フレームワークを提案する。複数のデバイスが視覚センサデータを収集し,その情報を処理するためのエッジサーバに送信する。
低レイテンシ推論を可能にするために、このフレームワークは、空間的および時間的領域におけるビデオ冗長性を排除し、エッジサーバでのビデオを再構成するのではなく、下流タスクに不可欠な最小限の情報を送信する。
具体的には、決定論的情報ボトルネック(IB)原理に基づいて、その特徴の情報性と通信コストのトレードオフを特徴付けるコンパクトなタスク関連特徴を抽出する。
連続フレームの特徴は時間的に相関するので,特徴符号化において,前の特徴を側情報として捉えてビットレートを低減するための時間エントロピーモデル(TEM)を提案する。
推論性能をさらに向上するため、サーバに時空間融合モジュールを構築し、現在のフレームと以前のフレームの特徴を統合する。
ビデオ分析タスクに関する大規模な実験により,提案フレームワークは映像データのタスク関連情報を効果的に符号化し,既存の手法よりも高いレート性能のトレードオフを実現することを示す。
関連論文リスト
- Edge Computing Enabled Real-Time Video Analysis via Adaptive
Spatial-Temporal Semantic Filtering [18.55091203660391]
本稿では,インテリジェント・ビジュアル・デバイスのためのエッジ・コンピューティングによるリアルタイム映像解析システムを提案する。
提案システムは,追跡支援対象検出モジュール(TAODM)と興味あるモジュールの領域(ROIM)から構成される。
TAODMは、トラッキングアルゴリズムで各ビデオフレームを局所的に処理するか、オブジェクト検出モデルにより推論されたエッジサーバにオフロードするか、オフロード決定を適応的に決定する。
論文 参考訳(メタデータ) (2024-02-29T07:42:03Z) - Spatio-temporal Prompting Network for Robust Video Feature Extraction [74.54597668310707]
フレームテンポラリ(Frametemporal)は、ビデオ理解の分野における大きな課題の1つだ。
最近のアプローチでは、トランスフォーマーベースの統合モジュールを活用して、時間的品質情報を得る。
N-Temporal Prompting Network (NNSTP) という,クリーンで統一されたフレームワークを提案する。
ネットワークバックボーン内の入力特徴を調整することで,映像特徴の抽出を効率的に行うことができる。
論文 参考訳(メタデータ) (2024-02-04T17:52:04Z) - Semantics-Driven Cloud-Edge Collaborative Inference [1.441340412842035]
本稿では,ビデオ推論の高速化を目的としたセマンティクス駆動型クラウドエッジ協調手法を提案する。
この方法はセマンティクスの抽出と認識を分離し、エッジサーバはビデオフレームからのみ視覚的セマンティクスを抽出できる。
実験では、エンドツーエンドの推論速度(最大5倍高速)、スループット(最大9FPS)、トラフィックボリュームの大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-27T06:53:09Z) - Spatiotemporal Attention-based Semantic Compression for Real-time Video
Recognition [117.98023585449808]
本稿では,各フレームにおけるフレームと画素の重要性を評価するために,時間的注意に基づくオートエンコーダ(STAE)アーキテクチャを提案する。
我々は3D-2D CNNを組み合わせた軽量デコーダを開発し、欠落した情報を再構成する。
実験の結果,VT_STAEはビデオデータセットH51を,5%の精度で104倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2023-05-22T07:47:27Z) - Streaming Video Model [90.24390609039335]
本稿では,映像理解タスクをストリーミング・ビジョン・トランスフォーマー(Streaming Vision Transformer, S-ViT)と呼ばれる1つのストリーミング・ビデオ・アーキテクチャに統合することを提案する。
S-ViTはまず、フレームベースのビデオタスクを提供するメモリ対応時空間エンコーダでフレームレベルの機能を生成する。
S-ViTの効率と有効性は、シークエンスに基づく行動認識における最先端の精度によって実証される。
論文 参考訳(メタデータ) (2023-03-30T08:51:49Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - CANS: Communication Limited Camera Network Self-Configuration for
Intelligent Industrial Surveillance [8.360870648463653]
リアルタイムおよびインテリジェントなカメラネットワークによるビデオ監視には、大量のビデオデータによる計算集約的な視覚検出タスクが含まれる。
複数のビデオストリームは、エッジデバイスとカメラネットワークのリンク上で限られた通信リソースを競う。
ビデオ監視の適応型カメラネットワーク自己設定法(CANS)を提案する。
論文 参考訳(メタデータ) (2021-09-13T01:54:33Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - VID-WIN: Fast Video Event Matching with Query-Aware Windowing at the
Edge for the Internet of Multimedia Things [3.222802562733787]
VID-WINは、エッジクラウドパラダイムでビデオイベント分析を加速するための適応型2段階アライメントウィンドウリングアプローチです。
VID-WINは、ビデオコンテンツと入力ノブを利用して、ノード間のビデオ推論プロセスを加速する。
論文 参考訳(メタデータ) (2021-04-27T10:08:40Z) - Neural Compression and Filtering for Edge-assisted Real-time Object
Detection in Challenged Networks [8.291242737118482]
我々はディープニューラルネットワーク(DNN)を用いた遠隔物体検出支援エッジコンピューティングに焦点をあてる。
無線リンクを介して送信されるデータの量を削減するためのフレームワークを開発する。
提案手法は,パラメータ領域における局所演算とエッジ演算の効果的な中間オプションを示す。
論文 参考訳(メタデータ) (2020-07-31T03:11:46Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。