論文の概要: ApproxDet: Content and Contention-Aware Approximate Object Detection for
Mobiles
- arxiv url: http://arxiv.org/abs/2010.10754v1
- Date: Wed, 21 Oct 2020 04:11:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 00:17:27.291147
- Title: ApproxDet: Content and Contention-Aware Approximate Object Detection for
Mobiles
- Title(参考訳): ApproxDet:モバイル向けコンテンツとコンテント対応の近似オブジェクト検出
- Authors: Ran Xu, Chen-lin Zhang, Pengcheng Wang, Jayoung Lee, Subrata Mitra,
Somali Chaterji, Yin Li, Saurabh Bagchi
- Abstract要約: 本稿では,モバイル機器用適応型ビデオオブジェクト検出フレームワークであるApproxDetを紹介する。
大規模なベンチマークビデオデータセット上でApproxDetを評価し,AdaScaleやYOLOv3と比較した。
ApproxDetは、幅広いコンテントやコンテンツの特徴に適応し、すべてのベースラインを誇張することができる。
- 参考スコア(独自算出の注目度): 19.41234144545467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advanced video analytic systems, including scene classification and object
detection, have seen widespread success in various domains such as smart cities
and autonomous transportation. With an ever-growing number of powerful client
devices, there is incentive to move these heavy video analytics workloads from
the cloud to mobile devices to achieve low latency and real-time processing and
to preserve user privacy. However, most video analytic systems are heavyweight
and are trained offline with some pre-defined latency or accuracy requirements.
This makes them unable to adapt at runtime in the face of three types of
dynamism -- the input video characteristics change, the amount of compute
resources available on the node changes due to co-located applications, and the
user's latency-accuracy requirements change. In this paper we introduce
ApproxDet, an adaptive video object detection framework for mobile devices to
meet accuracy-latency requirements in the face of changing content and resource
contention scenarios. To achieve this, we introduce a multi-branch object
detection kernel (layered on Faster R-CNN), which incorporates a data-driven
modeling approach on the performance metrics, and a latency SLA-driven
scheduler to pick the best execution branch at runtime. We couple this kernel
with approximable video object tracking algorithms to create an end-to-end
video object detection system. We evaluate ApproxDet on a large benchmark video
dataset and compare quantitatively to AdaScale and YOLOv3. We find that
ApproxDet is able to adapt to a wide variety of contention and content
characteristics and outshines all baselines, e.g., it achieves 52% lower
latency and 11.1% higher accuracy over YOLOv3.
- Abstract(参考訳): シーン分類や物体検出を含む高度なビデオ分析システムは、スマートシティや自律走行といった様々な領域で広く成功している。
ますます強力なクライアントデバイスが増えている今、これらの重いビデオ分析ワークロードをクラウドからモバイルデバイスに移行して、低レイテンシとリアルタイム処理を実現し、ユーザのプライバシを維持するインセンティブがある。
しかし、ほとんどのビデオ分析システムは重厚であり、事前定義されたレイテンシや精度要件でオフラインでトレーニングされている。
これにより、3種類のダイナミズムに直面して実行時に適応できない - 入力ビデオ特性の変化、同じロケーションのアプリケーションによるノード上で利用可能な計算リソースの量、ユーザのレイテンシ-正確性要件の変化だ。
本稿では,コンテンツの変更やリソース競合シナリオに対して,精度・レイテンシ要件を満たすモバイル機器用適応型ビデオオブジェクト検出フレームワークであるapproxdetを提案する。
これを実現するために、パフォーマンス指標にデータ駆動モデリングアプローチを取り入れたマルチブランチオブジェクト検出カーネル(Faster R-CNN上にレイヤ)と、実行時に最高の実行ブランチを選択する遅延SLA駆動スケジューラを導入する。
このカーネルを近似可能なビデオオブジェクト追跡アルゴリズムと組み合わせて、エンドツーエンドのビデオオブジェクト検出システムを構築する。
大規模なベンチマークビデオデータセット上でApproxDetを評価し,AdaScaleやYOLOv3と比較した。
ApproxDetは幅広いコンテントやコンテンツ特性に対応でき、すべてのベースラインを上回ります。例えば、YOLOv3よりも52%低いレイテンシと11.1%高い精度を実現しています。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Arena: A Patch-of-Interest ViT Inference Acceleration System for Edge-Assisted Video Analytics [18.042752812489276]
視覚変換器(ViT)を用いたエッジ・ツー・エンドビデオ推論高速化システムを提案する。
その結果、Arenaは平均で1.58(時間)と1.82(時間)の推論速度を向上でき、それぞれ帯域幅の47%と31%しか消費していないことがわかった。
論文 参考訳(メタデータ) (2024-04-14T13:14:13Z) - DVIS-DAQ: Improving Video Segmentation via Dynamic Anchor Queries [60.09774333024783]
動的アンカークエリ(DAQ)を導入し、アンカーとターゲットクエリ間の遷移ギャップを短くする。
また,クエリレベルのオブジェクトEmergence and Disappearance Simulation(EDS)戦略を導入する。
実験により、DVIS-DAQは5つの主流ビデオセグメンテーションベンチマーク上で、新しい最先端(SOTA)性能を達成することが示された。
論文 参考訳(メタデータ) (2024-03-29T17:58:50Z) - Edge Computing Enabled Real-Time Video Analysis via Adaptive
Spatial-Temporal Semantic Filtering [18.55091203660391]
本稿では,インテリジェント・ビジュアル・デバイスのためのエッジ・コンピューティングによるリアルタイム映像解析システムを提案する。
提案システムは,追跡支援対象検出モジュール(TAODM)と興味あるモジュールの領域(ROIM)から構成される。
TAODMは、トラッキングアルゴリズムで各ビデオフレームを局所的に処理するか、オブジェクト検出モデルにより推論されたエッジサーバにオフロードするか、オフロード決定を適応的に決定する。
論文 参考訳(メタデータ) (2024-02-29T07:42:03Z) - Fast and Resource-Efficient Object Tracking on Edge Devices: A
Measurement Study [9.976630547252427]
マルチオブジェクトトラッキング(MOT)は動く物体を検出し、実際のシーンがビデオに写っているときにフレームによって位置をトラッキングする。
本稿では,オブジェクト追跡における性能問題とエッジ固有の最適化機会について検討する。
EMOと呼ばれるエッジ固有のパフォーマンス最適化戦略をいくつか提示し、リアルタイムオブジェクト追跡を高速化する。
論文 参考訳(メタデータ) (2023-09-06T02:25:36Z) - Task-Oriented Communication for Edge Video Analytics [11.03999024164301]
本稿では,エッジビデオ分析のためのタスク指向通信フレームワークを提案する。
複数のデバイスが視覚センサデータを収集し、その情報機能をエッジサーバに送信して処理する。
提案手法は,映像データのタスク関連情報を効果的に符号化し,既存の手法よりも高いレート性能のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-11-25T12:09:12Z) - Scalable Video Object Segmentation with Identification Mechanism [125.4229430216776]
本稿では,半教師付きビデオオブジェクト(VOS)のスケーラブルで効果的なマルチオブジェクトモデリングを実現する上での課題について検討する。
AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)の2つの革新的なアプローチを提案する。
当社のアプローチは最先端の競合に勝って,6つのベンチマークすべてにおいて,例外的な効率性とスケーラビリティを一貫して示しています。
論文 参考訳(メタデータ) (2022-03-22T03:33:27Z) - Argus++: Robust Real-time Activity Detection for Unconstrained Video
Streams with Overlapping Cube Proposals [85.76513755331318]
Argus++は、制約のないビデオストリームを分析するための堅牢なリアルタイムアクティビティ検出システムである。
システム全体としては、スタンドアロンのコンシューマレベルのハードウェア上でのリアルタイム処理に最適化されている。
論文 参考訳(メタデータ) (2022-01-14T03:35:22Z) - Parallel Detection for Efficient Video Analytics at the Edge [5.547133811014004]
ディープニューラルネットワーク(DNN)訓練対象検出器は、エッジでのリアルタイムビデオ分析のためにミッションクリティカルシステムに広くデプロイされている。
ミッションクリティカルエッジサービスにおける一般的なパフォーマンス要件は、エッジデバイス上でのオンラインオブジェクト検出のほぼリアルタイムレイテンシである。
本稿では,エッジシステムにおける高速物体検出のためのマルチモデルマルチデバイス検出並列性を利用して,これらの問題に対処する。
論文 参考訳(メタデータ) (2021-07-27T02:50:46Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。