論文の概要: Real-Time Video Inference on Edge Devices via Adaptive Model Streaming
- arxiv url: http://arxiv.org/abs/2006.06628v2
- Date: Mon, 5 Apr 2021 23:29:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 09:25:41.886657
- Title: Real-Time Video Inference on Edge Devices via Adaptive Model Streaming
- Title(参考訳): 適応モデルストリーミングによるエッジデバイス上のリアルタイムビデオ推論
- Authors: Mehrdad Khani, Pouya Hamadanian, Arash Nasr-Esfahany, Mohammad
Alizadeh
- Abstract要約: 携帯電話やドローンなどのエッジデバイス上でのリアルタイムビデオ推論は、Deep Neural Networksのコストが高いため、難しい。
本稿では、エッジデバイス上での映像推論のための効率的な軽量モデルの性能向上のための新しいアプローチであるAdaptive Model Streaming (AMS)を提案する。
- 参考スコア(独自算出の注目度): 9.101956442584251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time video inference on edge devices like mobile phones and drones is
challenging due to the high computation cost of Deep Neural Networks. We
present Adaptive Model Streaming (AMS), a new approach to improving performance
of efficient lightweight models for video inference on edge devices. AMS uses a
remote server to continually train and adapt a small model running on the edge
device, boosting its performance on the live video using online knowledge
distillation from a large, state-of-the-art model. We discuss the challenges of
over-the-network model adaptation for video inference, and present several
techniques to reduce communication cost of this approach: avoiding excessive
overfitting, updating a small fraction of important model parameters, and
adaptive sampling of training frames at edge devices. On the task of video
semantic segmentation, our experimental results show 0.4--17.8 percent mean
Intersection-over-Union improvement compared to a pre-trained model across
several video datasets. Our prototype can perform video segmentation at 30
frames-per-second with 40 milliseconds camera-to-label latency on a Samsung
Galaxy S10+ mobile phone, using less than 300 Kbps uplink and downlink
bandwidth on the device.
- Abstract(参考訳): 携帯電話やドローンなどのエッジデバイス上でのリアルタイムビデオ推論は、Deep Neural Networksの計算コストが高いため、難しい。
本稿では,エッジデバイスにおけるビデオ推論のための効率的な軽量モデルの性能向上のための新しい手法であるadaptive model streaming(ams)を提案する。
AMSはリモートサーバを使用してエッジデバイス上で動作する小さなモデルを継続的にトレーニングし、適応させ、大規模で最先端のモデルからのオンライン知識蒸留を使用してライブビデオのパフォーマンスを向上させる。
ビデオ推論におけるネットワーク上モデル適応の課題を考察し,過度な過剰フィッティングの回避,重要なモデルパラメータのごく一部更新,エッジデバイスにおけるトレーニングフレームの適応サンプリングなど,このアプローチの通信コスト低減のためのいくつかの手法を提案する。
ビデオセマンティクスセグメンテーションの課題として,複数のビデオデータセットにまたがる事前学習モデルと比較して,0.4~17.8%の平均交点オーバーユニオン改善率を示した。
我々のプロトタイプは、Samsung Galaxy S10+の携帯電話上で、300Kbpsのアップリンクとダウンリンク帯域を使って、毎秒30フレーム/秒で40ミリ秒のレイテンシでビデオセグメンテーションを行うことができる。
関連論文リスト
- Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - Towards High-Quality and Efficient Video Super-Resolution via
Spatial-Temporal Data Overfitting [27.302681897961588]
ディープ畳み込みニューラルネットワーク(DNN)はコンピュータビジョンの様々な分野で広く使われている。
高品質で効率的なビデオ解像度アップスケーリングタスクのための新しい手法を提案する。
市販の携帯電話にモデルをデプロイし,実験結果から,映像品質の高いリアルタイムビデオ解像度を実現することが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:40:02Z) - Task-Oriented Communication for Edge Video Analytics [12.407842660415414]
本稿では,エッジビデオ分析のためのタスク指向通信フレームワークを提案する。
複数のデバイスが視覚センサデータを収集し、その情報機能をエッジサーバに送信して処理する。
提案手法は,映像データのタスク関連情報を効果的に符号化し,既存の手法よりも高いレート性能のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-11-25T12:09:12Z) - Video Mobile-Former: Video Recognition with Efficient Global
Spatial-temporal Modeling [125.95527079960725]
トランスフォーマーベースのモデルは、主要なビデオ認識ベンチマークで最高のパフォーマンスを達成した。
Video Mobile-Formerはトランスフォーマーベースの最初のビデオモデルであり、1G FLOP内で計算予算を制限している。
論文 参考訳(メタデータ) (2022-08-25T17:59:00Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - MoViNets: Mobile Video Networks for Efficient Video Recognition [52.49314494202433]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:06:38Z) - ApproxDet: Content and Contention-Aware Approximate Object Detection for
Mobiles [19.41234144545467]
本稿では,モバイル機器用適応型ビデオオブジェクト検出フレームワークであるApproxDetを紹介する。
大規模なベンチマークビデオデータセット上でApproxDetを評価し,AdaScaleやYOLOv3と比較した。
ApproxDetは、幅広いコンテントやコンテンツの特徴に適応し、すべてのベースラインを誇張することができる。
論文 参考訳(メタデータ) (2020-10-21T04:11:05Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z) - Making DensePose fast and light [78.49552144907513]
このタスクを解くことができる既存のニューラルネットワークモデルは、非常にパラメータ化されている。
現在のモデルで端末のDense Pose推論を有効にするには、高価なサーバーサイドのインフラをサポートし、安定したインターネット接続が必要である。
本研究では,DensePose R-CNNモデルのアーキテクチャを再設計することで,最終的なネットワークがその精度の大部分を維持しつつ,より軽量で高速なネットワークを実現することを目的とする。
論文 参考訳(メタデータ) (2020-06-26T19:42:20Z) - An On-Device Federated Learning Approach for Cooperative Model Update
between Edge Devices [2.99321624683618]
エッジデバイスが実行時に入力データをトレーニングしてモデルを更新するように、オンデバイス学習に基づくニューラルネットワークアプローチが最近提案されている。
本稿では,OS-ELMに着目して,最近のサンプルに基づいてモデルを逐次訓練し,異常検出のためのオートエンコーダと組み合わせる。
デバイス上でのフェデレーション学習のために拡張し、エッジデバイスがトレーニングされた結果を交換し、他のエッジデバイスから収集したデータを使用してモデルを更新できるようにします。
論文 参考訳(メタデータ) (2020-02-27T18:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。