論文の概要: Real-Time Video Inference on Edge Devices via Adaptive Model Streaming
- arxiv url: http://arxiv.org/abs/2006.06628v2
- Date: Mon, 5 Apr 2021 23:29:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 09:25:41.886657
- Title: Real-Time Video Inference on Edge Devices via Adaptive Model Streaming
- Title(参考訳): 適応モデルストリーミングによるエッジデバイス上のリアルタイムビデオ推論
- Authors: Mehrdad Khani, Pouya Hamadanian, Arash Nasr-Esfahany, Mohammad
Alizadeh
- Abstract要約: 携帯電話やドローンなどのエッジデバイス上でのリアルタイムビデオ推論は、Deep Neural Networksのコストが高いため、難しい。
本稿では、エッジデバイス上での映像推論のための効率的な軽量モデルの性能向上のための新しいアプローチであるAdaptive Model Streaming (AMS)を提案する。
- 参考スコア(独自算出の注目度): 9.101956442584251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time video inference on edge devices like mobile phones and drones is
challenging due to the high computation cost of Deep Neural Networks. We
present Adaptive Model Streaming (AMS), a new approach to improving performance
of efficient lightweight models for video inference on edge devices. AMS uses a
remote server to continually train and adapt a small model running on the edge
device, boosting its performance on the live video using online knowledge
distillation from a large, state-of-the-art model. We discuss the challenges of
over-the-network model adaptation for video inference, and present several
techniques to reduce communication cost of this approach: avoiding excessive
overfitting, updating a small fraction of important model parameters, and
adaptive sampling of training frames at edge devices. On the task of video
semantic segmentation, our experimental results show 0.4--17.8 percent mean
Intersection-over-Union improvement compared to a pre-trained model across
several video datasets. Our prototype can perform video segmentation at 30
frames-per-second with 40 milliseconds camera-to-label latency on a Samsung
Galaxy S10+ mobile phone, using less than 300 Kbps uplink and downlink
bandwidth on the device.
- Abstract(参考訳): 携帯電話やドローンなどのエッジデバイス上でのリアルタイムビデオ推論は、Deep Neural Networksの計算コストが高いため、難しい。
本稿では,エッジデバイスにおけるビデオ推論のための効率的な軽量モデルの性能向上のための新しい手法であるadaptive model streaming(ams)を提案する。
AMSはリモートサーバを使用してエッジデバイス上で動作する小さなモデルを継続的にトレーニングし、適応させ、大規模で最先端のモデルからのオンライン知識蒸留を使用してライブビデオのパフォーマンスを向上させる。
ビデオ推論におけるネットワーク上モデル適応の課題を考察し,過度な過剰フィッティングの回避,重要なモデルパラメータのごく一部更新,エッジデバイスにおけるトレーニングフレームの適応サンプリングなど,このアプローチの通信コスト低減のためのいくつかの手法を提案する。
ビデオセマンティクスセグメンテーションの課題として,複数のビデオデータセットにまたがる事前学習モデルと比較して,0.4~17.8%の平均交点オーバーユニオン改善率を示した。
我々のプロトタイプは、Samsung Galaxy S10+の携帯電話上で、300Kbpsのアップリンクとダウンリンク帯域を使って、毎秒30フレーム/秒で40ミリ秒のレイテンシでビデオセグメンテーションを行うことができる。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - EdgeSync: Faster Edge-model Updating via Adaptive Continuous Learning for Video Data Drift [7.165359653719119]
リアルタイムビデオ分析システムは一般的に、レイテンシを低減するためにエッジデバイスに重みを減らしたモデルを配置する。
映像コンテンツの特徴の分布は時間とともに変化し、既存のモデルの精度が低下する。
最近の研究は、リモートサーバを使用して、複雑なモデルの助けを借りて、エッジで軽量モデルを継続的にトレーニングし、適応するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T07:06:26Z) - Arena: A Patch-of-Interest ViT Inference Acceleration System for Edge-Assisted Video Analytics [18.042752812489276]
視覚変換器(ViT)を用いたエッジ・ツー・エンドビデオ推論高速化システムを提案する。
その結果、Arenaは平均で1.58(時間)と1.82(時間)の推論速度を向上でき、それぞれ帯域幅の47%と31%しか消費していないことがわかった。
論文 参考訳(メタデータ) (2024-04-14T13:14:13Z) - Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - Towards High-Quality and Efficient Video Super-Resolution via
Spatial-Temporal Data Overfitting [27.302681897961588]
ディープ畳み込みニューラルネットワーク(DNN)はコンピュータビジョンの様々な分野で広く使われている。
高品質で効率的なビデオ解像度アップスケーリングタスクのための新しい手法を提案する。
市販の携帯電話にモデルをデプロイし,実験結果から,映像品質の高いリアルタイムビデオ解像度を実現することが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:40:02Z) - Video Mobile-Former: Video Recognition with Efficient Global
Spatial-temporal Modeling [125.95527079960725]
トランスフォーマーベースのモデルは、主要なビデオ認識ベンチマークで最高のパフォーマンスを達成した。
Video Mobile-Formerはトランスフォーマーベースの最初のビデオモデルであり、1G FLOP内で計算予算を制限している。
論文 参考訳(メタデータ) (2022-08-25T17:59:00Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - MoViNets: Mobile Video Networks for Efficient Video Recognition [52.49314494202433]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:06:38Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z) - An On-Device Federated Learning Approach for Cooperative Model Update
between Edge Devices [2.99321624683618]
エッジデバイスが実行時に入力データをトレーニングしてモデルを更新するように、オンデバイス学習に基づくニューラルネットワークアプローチが最近提案されている。
本稿では,OS-ELMに着目して,最近のサンプルに基づいてモデルを逐次訓練し,異常検出のためのオートエンコーダと組み合わせる。
デバイス上でのフェデレーション学習のために拡張し、エッジデバイスがトレーニングされた結果を交換し、他のエッジデバイスから収集したデータを使用してモデルを更新できるようにします。
論文 参考訳(メタデータ) (2020-02-27T18:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。