論文の概要: AccMPEG: Optimizing Video Encoding for Video Analytics
- arxiv url: http://arxiv.org/abs/2204.12534v1
- Date: Tue, 26 Apr 2022 18:42:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-29 02:37:25.036414
- Title: AccMPEG: Optimizing Video Encoding for Video Analytics
- Title(参考訳): AccMPEG:ビデオ分析のためのビデオエンコーディングの最適化
- Authors: Kuntai Du, Qizheng Zhang, Anton Arapin, Haodong Wang, Zhengxu Xia,
Junchen Jiang
- Abstract要約: 本稿では,3つの要件をすべて満たした新しいビデオエンコーディングおよびストリーミングシステムであるAccについて述べる。
Accは、最先端のベースラインと比較して精度を損なうことなく、エンドツーエンドの推論遅延を10~43%削減できることを示す。
- 参考スコア(独自算出の注目度): 3.014067621172247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With more videos being recorded by edge sensors (cameras) and analyzed by
computer-vision deep neural nets (DNNs), a new breed of video streaming systems
has emerged, with the goal to compress and stream videos to remote servers in
real time while preserving enough information to allow highly accurate
inference by the server-side DNNs. An ideal design of the video streaming
system should simultaneously meet three key requirements: (1) low latency of
encoding and streaming, (2) high accuracy of server-side DNNs, and (3) low
compute overheads on the camera. Unfortunately, despite many recent efforts,
such video streaming system has hitherto been elusive, especially when serving
advanced vision tasks such as object detection or semantic segmentation. This
paper presents AccMPEG, a new video encoding and streaming system that meets
all the three requirements. The key is to learn how much the encoding quality
at each (16x16) macroblock can influence the server-side DNN accuracy, which we
call accuracy gradient. Our insight is that these macroblock-level accuracy
gradient can be inferred with sufficient precision by feeding the video frames
through a cheap model. AccMPEG provides a suite of techniques that, given a new
server-side DNN, can quickly create a cheap model to infer the accuracy
gradient on any new frame in near realtime. Our extensive evaluation of AccMPEG
on two types of edge devices (one Intel Xeon Silver 4100 CPU or NVIDIA Jetson
Nano) and three vision tasks (six recent pre-trained DNNs) shows that AccMPEG
(with the same camera-side compute resources) can reduce the end-to-end
inference delay by 10-43% without hurting accuracy compared to the
state-of-the-art baselines
- Abstract(参考訳): エッジセンサー(カメラ)によってより多くのビデオが記録され、コンピュータビジョンのディープニューラルネット(DNN)によって分析され、サーバサイドのDNNによる高精度な推論を可能にする十分な情報を保持しながら、リモートサーバにビデオをリアルタイムで圧縮してストリームすることを目的として、新しいタイプのビデオストリーミングシステムが登場した。
ビデオストリーミングシステムの理想的な設計は,(1)符号化とストリーミングの低レイテンシ,(2)サーバ側のDNNの高精度化,(3)カメラ上の計算オーバーヘッドの低減,の3つの要件を同時に満たさなければならない。
特にオブジェクト検出やセマンティックセグメンテーションといった先進的な視覚タスクをこなす場合において,このようなビデオストリーミングシステムは大きな進歩を遂げている。
本稿では,3つの要件をすべて満たした新しいビデオエンコーディング・ストリーミングシステムであるAccMPEGを提案する。
鍵となるのは、各(16x16)マクロブロックにおける符号化品質がサーバ側のDNN精度にどの程度影響するかを知ることだ。
我々の洞察では、これらのマクロブロックレベルの精度勾配は、ビデオフレームを安価なモデルで供給することで十分な精度で推測できる。
AccMPEGは、新しいサーバサイドのDNNが与えられたら、すぐに安価なモデルを作成し、ほぼリアルタイムで新しいフレームの精度勾配を推測できる一連の技術を提供します。
2種類のエッジデバイス(Intel Xeon Silver 4100 CPUまたはNVIDIA Jetson Nano)と3つのビジョンタスク(最近トレーニングされたDNN6つ)におけるAccMPEGの広範囲な評価は、AccMPEG(カメラサイドの計算リソースが同じ)が最先端のベースラインと比較して精度を損なうことなく、エンドツーエンドの推論遅延を10~43%削減できることを示している。
関連論文リスト
- SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [15.872209884833977]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。
SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文 参考訳(メタデータ) (2024-10-28T07:13:25Z) - Fast Encoding and Decoding for Implicit Video Representation [88.43612845776265]
本稿では,高速エンコーディングのためのトランスフォーマーベースのハイパーネットワークであるNeRV-Encと,効率的なビデオローディングのための並列デコーダであるNeRV-Decを紹介する。
NeRV-Encは勾配ベースの最適化をなくすことで$mathbf104times$の素晴らしいスピードアップを実現している。
NeRV-Decはビデオデコーディングを単純化し、ロード速度が$mathbf11times$で従来のコーデックよりも高速である。
論文 参考訳(メタデータ) (2024-09-28T18:21:52Z) - Towards High-Quality and Efficient Video Super-Resolution via
Spatial-Temporal Data Overfitting [27.302681897961588]
ディープ畳み込みニューラルネットワーク(DNN)はコンピュータビジョンの様々な分野で広く使われている。
高品質で効率的なビデオ解像度アップスケーリングタスクのための新しい手法を提案する。
市販の携帯電話にモデルをデプロイし,実験結果から,映像品質の高いリアルタイムビデオ解像度を実現することが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:40:02Z) - AccDecoder: Accelerated Decoding for Neural-enhanced Video Analytics [26.012783785622073]
低画質のビデオは、品質の悪いカメラや、過度に圧縮/切断されたビデオストリーミングプロトコルのために、既存の監視システムによって収集される。
AccDecoderは、リアルタイムおよびニューラルネットワークベースのビデオ分析のための新しいアクセラレーションデコーダである。
論文 参考訳(メタデータ) (2023-01-20T16:30:44Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - MoViNets: Mobile Video Networks for Efficient Video Recognition [52.49314494202433]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:06:38Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。