論文の概要: Leveraging Simultaneous Usage of Edge GPU Hardware Engines for Video Face Detection and Recognition
- arxiv url: http://arxiv.org/abs/2505.04502v1
- Date: Wed, 07 May 2025 15:22:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:36.129165
- Title: Leveraging Simultaneous Usage of Edge GPU Hardware Engines for Video Face Detection and Recognition
- Title(参考訳): 映像顔検出・認識のためのエッジGPUハードウェアエンジンの同時利用
- Authors: Asma Baobaid, Mahmoud Meribout,
- Abstract要約: 本稿では,エッジGPUで利用可能なハードウェアエンジンの同時使用を最大化することを目的とする。
これには、ほとんどの顔監視アプリケーションで必要とされるビデオデコーディングタスクが含まれている。
結果は、最近のNVIDIAエッジOrin GPUで利用可能なすべてのハードウェアエンジンを同時に使用し、高いスループットと約300mWの電力消費をわずかに削減し、約5%を占めることを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video face detection and recognition in public places at the edge is required in several applications, such as security reinforcement and contactless access to authorized venues. This paper aims to maximize the simultaneous usage of hardware engines available in edge GPUs nowadays by leveraging the concurrency and pipelining of tasks required for face detection and recognition. This also includes the video decoding task, which is required in most face monitoring applications as the video streams are usually carried via Gbps Ethernet network. This constitutes an improvement over previous works where the tasks are usually allocated to a single engine due to the lack of a unified and automated framework that simultaneously explores all hardware engines. In addition, previously, the input faces were usually embedded in still images or within raw video streams that overlook the burst delay caused by the decoding stage. The results on real-life video streams suggest that simultaneously using all the hardware engines available in the recent NVIDIA edge Orin GPU, higher throughput, and a slight saving of power consumption of around 300 mW, accounting for around 5%, have been achieved while satisfying the real-time performance constraint. The performance gets even higher by considering several video streams simultaneously. Further performance improvement could have been obtained if the number of shuffle layers that were created by the tensor RT framework for the face recognition task was lower. Thus, the paper suggests some hardware improvements to the existing edge GPU processors to enhance their performance even higher.
- Abstract(参考訳): エッジにある公共の場所におけるビデオの顔の検出と認識は、セキュリティ強化や許可された会場への非接触アクセスなど、いくつかのアプリケーションで必要とされる。
本稿では,現在エッジGPUで利用可能なハードウェアエンジンの同時利用を最大化するために,顔検出および認識に必要なタスクの同時実行とパイプライン化を活用することを目的とする。
これはビデオストリームが通常Gbps Ethernetネットワーク経由で転送されるため、ほとんどの顔監視アプリケーションで必要とされるビデオデコーディングタスクを含んでいる。
これは、すべてのハードウェアエンジンを同時に探索する統一的で自動化されたフレームワークがないため、タスクが通常1つのエンジンに割り当てられる以前の作業よりも改善されている。
さらに、従来は、入力された顔は静止画や生のビデオストリームに埋め込まれていた。
実生活のビデオストリームの結果は、最近のNVIDIAエッジOrin GPUで利用可能なすべてのハードウェアエンジンを同時に使用し、高いスループットとおよそ5%を占める約300mWの省電力を実現し、リアルタイムパフォーマンスの制約を満たすことを示唆している。
複数のビデオストリームを同時に検討することで、パフォーマンスはさらに向上する。
顔認識タスクのためのテンソルRTフレームワークによって作成されたシャッフル層の数が少なくなれば,さらなる性能向上が達成できた。
そこで本論文では,既存のエッジGPUプロセッサのハードウェア改良により,パフォーマンスがさらに向上したことを示唆する。
関連論文リスト
- Edge-GPU Based Face Tracking for Face Detection and Recognition Acceleration [0.0]
本稿では,NVIDIA Jetson AGX Orin上での顔検出と認識を最適化するためのハードウェアとソフトウェアの組み合わせを提案する。
結果から,Orin GPUで利用可能なハードウェアエンジンとトラッカーをパイプラインに統合することにより,1920 x 1080 の入力サイズフレームに対して,平均 6 面/フレームを含む290 FPS (frames per second) の劇的なスループットが得られることが示唆された。
このハードウェア・コーデサイン・アプローチは、公共の場でのビデオ監視に不可欠である、エッジで高性能なマシンビジョンシステムを設計する方法を舗装することができる。
論文 参考訳(メタデータ) (2025-05-07T15:57:53Z) - VR-Pipe: Streamlining Hardware Graphics Pipeline for Volume Rendering [1.9470707535768061]
我々は,3次元ガウススプラッティング法である最先端の放射界法を実装し,グラフィックAPIを用いて,今日のグラフィックハードウェアにおける合成および実世界のシーンで評価する。
このVR-Pipeはグラフィクスハードウェアに2つのイノベーションをシームレスに統合し、ボリュームレンダリングのためのハードウェアパイプラインを合理化します。
我々の評価によると、VR-Pipeはレンダリング性能を大幅に改善し、従来のグラフィックスパイプラインよりも2.78倍のスピードアップを実現し、ハードウェアのオーバーヘッドを無視できる。
論文 参考訳(メタデータ) (2025-02-24T11:46:36Z) - V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians [53.614560799043545]
V3 (Viewing Volumetric Videos) は,ダイナミックガウスのストリーミングによる高品質なモバイルレンダリングを実現する,新たなアプローチである。
私たちの重要なイノベーションは、ダイナミックな3DGSを2Dビデオと見なすことで、ハードウェアビデオコーデックの使用を促進することです。
モバイル端末でダイナミックなガウシアンをストリームする最初の手段として、私たちのコンパニオンプレーヤーは、前例のないボリュームビデオ体験をユーザに提供します。
論文 参考訳(メタデータ) (2024-09-20T16:54:27Z) - Turbo: Opportunistic Enhancement for Edge Video Analytics [15.528497833853146]
本稿では,非決定論的および断片的アイドルGPU資源を用いたオポチュニティデータ拡張問題について検討する。
本稿では,タスク固有の識別・拡張モジュールと,モデル対応の対人訓練機構を提案する。
我々のシステムは、遅延コストを発生させることなく、オブジェクト検出の精度を7.3~11.3%向上させる。
論文 参考訳(メタデータ) (2022-06-29T12:13:30Z) - ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。
我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-05-14T21:16:21Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - Argus++: Robust Real-time Activity Detection for Unconstrained Video
Streams with Overlapping Cube Proposals [85.76513755331318]
Argus++は、制約のないビデオストリームを分析するための堅牢なリアルタイムアクティビティ検出システムである。
システム全体としては、スタンドアロンのコンシューマレベルのハードウェア上でのリアルタイム処理に最適化されている。
論文 参考訳(メタデータ) (2022-01-14T03:35:22Z) - Robust and efficient post-processing for video object detection [9.669942356088377]
この研究は、従来の後処理メソッドの制限を克服する、新しい後処理パイプラインを導入している。
本手法は,特に高速移動物体に関する最先端の映像検出器の結果を改善する。
そして、YOLOのような効率的な静止画像検出器に適用することで、より計算集約的な検出器に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2020-09-23T10:47:24Z) - Faster than FAST: GPU-Accelerated Frontend for High-Speed VIO [46.20949184826173]
この研究は、既存のコンピュータビジョンアルゴリズムを改善するために、効率的な低レベルGPUハードウェア固有の命令の適用性に焦点を当てている。
特に、非マックス抑圧とその後の特徴選択は、全体的な画像処理遅延への顕著な寄与である。
論文 参考訳(メタデータ) (2020-03-30T14:16:23Z) - Efficient Video Semantic Segmentation with Labels Propagation and
Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文 参考訳(メタデータ) (2019-12-26T11:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。