論文の概要: Mondrian: On-Device High-Performance Video Analytics with Compressive
Packed Inference
- arxiv url: http://arxiv.org/abs/2403.07598v1
- Date: Tue, 12 Mar 2024 12:35:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 21:34:49.215494
- Title: Mondrian: On-Device High-Performance Video Analytics with Compressive
Packed Inference
- Title(参考訳): Mondrian: 圧縮パッケージ推論によるオンデバイス高性能ビデオ分析
- Authors: Changmin Jeon, Seonjun Kim, Juheon Yi, Youngki Lee
- Abstract要約: Mondrianは、高解像度ビデオストリーム上で高性能なオブジェクト検出を可能にするエッジシステムである。
我々は,1ピクセルあたりの処理コストを最小限に抑えるために,新しい圧縮パッケージ推論を考案した。
- 参考スコア(独自算出の注目度): 7.624476059109304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present Mondrian, an edge system that enables
high-performance object detection on high-resolution video streams. Many
lightweight models and system optimization techniques have been proposed for
resource-constrained devices, but they do not fully utilize the potential of
the accelerators over dynamic, high-resolution videos. To enable such
capability, we devise a novel Compressive Packed Inference to minimize
per-pixel processing costs by selectively determining the necessary pixels to
process and combining them to maximize processing parallelism. In particular,
our system quickly extracts ROIs and dynamically shrinks them, reflecting the
effect of the fast-changing characteristics of objects and scenes. It then
intelligently combines such scaled ROIs into large canvases to maximize the
utilization of inference accelerators such as GPU. Evaluation across various
datasets, models, and devices shows Mondrian outperforms state-of-the-art
baselines (e.g., input rescaling, ROI extractions, ROI extractions+batching) by
15.0-19.7% higher accuracy, leading to $\times$6.65 higher throughput than
frame-wise inference for processing various 1080p video streams. We will
release the code after the paper review.
- Abstract(参考訳): 本稿では,高分解能ビデオストリーム上で高性能オブジェクト検出を実現するエッジシステムであるmondrianを提案する。
リソース制約のあるデバイスでは、多くの軽量モデルやシステム最適化技術が提案されているが、動的高解像度ビデオよりもアクセラレータの可能性を十分に活用していない。
このような機能を実現するため,我々は,処理に必要な画素を選択的に決定し,並列処理を最大化することで,画素単位の処理コストを最小限に抑える新しい圧縮パッケージ推論を考案した。
特に, オブジェクトやシーンの高速な変化特性の影響を反映して, ROIを迅速に抽出し, 動的に縮小する。
そして、そのようなスケールしたROIを大きなキャンバスにインテリジェントに組み合わせ、GPUのような推論アクセラレータの利用を最大化する。
様々なデータセット、モデル、デバイスに対する評価では、mondrianは、最先端のベースライン(例えば、入力再スケーリング、roi抽出、roi抽出+バッチ)を15.0-19.7%高い精度で上回り、様々な1080pビデオストリームを処理するためのフレーム単位での推論よりも6.65ドル高いスループットをもたらす。
論文レビューの後、コードをリリースします。
関連論文リスト
- Data Overfitting for On-Device Super-Resolution with Dynamic Algorithm and Compiler Co-Design [18.57172631588624]
本稿では,Content-Awareデータ処理パイプラインが支援する動的ディープニューラルネットワークを提案する。
本手法は,市販携帯電話上でのPSNRとリアルタイム性能(33FPS)の向上を実現する。
論文 参考訳(メタデータ) (2024-07-03T05:17:26Z) - Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。
また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。
得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文 参考訳(メタデータ) (2024-06-12T01:12:53Z) - Random resistive memory-based deep extreme point learning machine for
unified visual processing [67.51600474104171]
ハードウェア・ソフトウェア共同設計型, ランダム抵抗型メモリベース深部極点学習マシン(DEPLM)を提案する。
我々の共同設計システムは,従来のシステムと比較して,エネルギー効率の大幅な向上とトレーニングコストの削減を実現している。
論文 参考訳(メタデータ) (2023-12-14T09:46:16Z) - Data-Model-Circuit Tri-Design for Ultra-Light Video Intelligence on Edge
Devices [90.30316433184414]
本稿では,HDビデオストリーム上での高スループット,低コスト,高精度MOTのためのデータモデル・ハードウエア・トリデザイン・フレームワークを提案する。
現状のMOTベースラインと比較して、我々の三設計アプローチは12.5倍の遅延低減、20.9倍のフレームレート改善、5.83倍の低消費電力、9.78倍のエネルギー効率を実現でき、精度は低下しない。
論文 参考訳(メタデータ) (2022-10-16T16:21:40Z) - Efficient Heterogeneous Video Segmentation at the Edge [2.4378845585726903]
ヘテロジニアス計算を利用したリソース制限エッジデバイスのための効率的なビデオセグメンテーションシステムを提案する。
具体的には、ニューラルネットワークの仕様を多次元にわたって探索することで、ネットワークモデルを設計する。
我々は、CPU、GPU、NPUにまたがるシステムの異種データフローを分析し、最適化する。
論文 参考訳(メタデータ) (2022-08-24T17:01:09Z) - Turbo: Opportunistic Enhancement for Edge Video Analytics [15.528497833853146]
本稿では,非決定論的および断片的アイドルGPU資源を用いたオポチュニティデータ拡張問題について検討する。
本稿では,タスク固有の識別・拡張モジュールと,モデル対応の対人訓練機構を提案する。
我々のシステムは、遅延コストを発生させることなく、オブジェクト検出の精度を7.3~11.3%向上させる。
論文 参考訳(メタデータ) (2022-06-29T12:13:30Z) - STRPM: A Spatiotemporal Residual Predictive Model for High-Resolution
Video Prediction [78.129039340528]
本稿では,高解像度映像予測のための時間残差予測モデル(STRPM)を提案する。
STRPMは、既存の様々な方法と比較して、より満足な結果を得ることができる。
実験の結果, STRPMは既存手法と比較して良好な結果が得られた。
論文 参考訳(メタデータ) (2022-03-30T06:24:00Z) - A Reinforcement-Learning-Based Energy-Efficient Framework for Multi-Task
Video Analytics Pipeline [16.72264118199915]
ビデオ分析パイプラインは、高いデータレートと複雑な推論アルゴリズムに依存するため、エネルギー集約的である。
マルチタスクビデオ解析パイプラインのエネルギー使用を最小限に抑える適応解像度最適化フレームワークを提案する。
私たちのフレームワークは、YouTube-VISデータセットで同様の精度の全てのベースラインメソッドを大幅に上回りました。
論文 参考訳(メタデータ) (2021-04-09T15:44:06Z) - Large Motion Video Super-Resolution with Dual Subnet and Multi-Stage
Communicated Upsampling [18.09730129484432]
ビデオ超解像(VSR)は、低解像度(LR)でビデオを復元し、高解像度(HR)に改善することを目的としている。
本稿では,2重サブネットと多段通信アップサンプリング(dsmc)を用いた,大規模動画の超高解像度化のための深層ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-03-22T11:52:12Z) - Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video
Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。
時間合成と空間超解像はこの課題に関係している。
LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:59:48Z) - Video Face Super-Resolution with Motion-Adaptive Feedback Cell [90.73821618795512]
深部畳み込みニューラルネットワーク(CNN)の発展により,ビデオ超解像法(VSR)は近年,顕著な成功を収めている。
本稿では,動作補償を効率的に捕捉し,適応的にネットワークにフィードバックする,シンプルで効果的なブロックである動き適応型フィードバックセル(MAFC)を提案する。
論文 参考訳(メタデータ) (2020-02-15T13:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。