論文の概要: Real-Time Human Action Recognition on Embedded Platforms
- arxiv url: http://arxiv.org/abs/2409.05662v2
- Date: Wed, 11 Sep 2024 14:21:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 13:13:20.785971
- Title: Real-Time Human Action Recognition on Embedded Platforms
- Title(参考訳): 組込みプラットフォーム上でのリアルタイム人間行動認識
- Authors: Ruiqi Wang, Zichen Wang, Peiqi Gao, Mingzhen Li, Jaehwan Jeong, Yihang Xu, Yejin Lee, Carolyn M. Baum, Lisa Tabor Connor, Chenyang Lu,
- Abstract要約: 本研究は,映像に基づくヒューマンアクション認識(HAR)のリアルタイムパフォーマンス課題を4つのコントリビューションで解決する。
RT-HAREは組み込みプラットフォームに適したリアルタイムHARシステムである。
Nvidia Jetson Xavier NXプラットフォームの実験結果によると、RT-HAREはリアルタイムHARを毎秒30フレームのフレームレートで実現している。
- 参考スコア(独自算出の注目度): 10.905968330685393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With advancements in computer vision and deep learning, video-based human action recognition (HAR) has become practical. However, due to the complexity of the computation pipeline, running HAR on live video streams incurs excessive delays on embedded platforms. This work tackles the real-time performance challenges of HAR with four contributions: 1) an experimental study identifying a standard Optical Flow (OF) extraction technique as the latency bottleneck in a state-of-the-art HAR pipeline, 2) an exploration of the latency-accuracy tradeoff between the standard and deep learning approaches to OF extraction, which highlights the need for a novel, efficient motion feature extractor, 3) the design of Integrated Motion Feature Extractor (IMFE), a novel single-shot neural network architecture for motion feature extraction with drastic improvement in latency, 4) the development of RT-HARE, a real-time HAR system tailored for embedded platforms. Experimental results on an Nvidia Jetson Xavier NX platform demonstrated that RT-HARE realizes real-time HAR at a video frame rate of 30 frames per second while delivering high levels of recognition accuracy.
- Abstract(参考訳): コンピュータビジョンと深層学習の進歩により,映像に基づく人間行動認識(HAR)が実用化されている。
しかし、計算パイプラインの複雑さのため、ライブビデオストリーム上でHARを実行すると、組み込みプラットフォームでは過度な遅延が発生する。
この作業は、HARのリアルタイムパフォーマンス課題に4つのコントリビューションで取り組みます。
1) 最先端HARパイプラインにおける遅延ボトルネックとして標準光学フロー(OF)抽出手法を同定する実験的検討。
2) 新たな効率的な動作特徴抽出器の必要性を浮き彫りにした,標準手法と深層学習手法との遅延精度のトレードオフを探る。
3) 動作特徴抽出のための新しい単一ショットニューラルネットワークアーキテクチャであるIce(Integrated Motion Feature Extractor)の設計。
4)組み込みプラットフォームに適したリアルタイムHARシステムRT-HAREの開発。
Nvidia Jetson Xavier NXプラットフォームの実験結果によると、RT-HAREはリアルタイムHARを毎秒30フレームのフレームレートで実現し、高いレベルの認識精度を実現している。
関連論文リスト
- Energy-Efficient Spiking Recurrent Neural Network for Gesture Recognition on Embedded GPUs [1.37621344207686]
本研究では,スピーキングリカレントニューラルネットワーク(SRNN)と液体時間定数ニューロンを併用したジェスチャー認識システムについて検討した。
NVIDIA Jetson Nano組み込みGPUプラットフォームにおけるエネルギー効率と計算効率に着目した。
論文 参考訳(メタデータ) (2024-08-23T10:50:29Z) - Revisiting Learning-based Video Motion Magnification for Real-time
Processing [23.148430647367224]
動画の動きを拡大する技術は、裸眼で見えないビデオの中で微妙な動きを捉え、増幅する技術である。
FLOPを4.2倍小さくし,従来よりも2.7倍高速なリアルタイム深層学習に基づく動き倍率モデルを提案する。
論文 参考訳(メタデータ) (2024-03-04T09:57:08Z) - Spatiotemporal Attention-based Semantic Compression for Real-time Video
Recognition [117.98023585449808]
本稿では,各フレームにおけるフレームと画素の重要性を評価するために,時間的注意に基づくオートエンコーダ(STAE)アーキテクチャを提案する。
我々は3D-2D CNNを組み合わせた軽量デコーダを開発し、欠落した情報を再構成する。
実験の結果,VT_STAEはビデオデータセットH51を,5%の精度で104倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2023-05-22T07:47:27Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。
我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-05-14T21:16:21Z) - hARMS: A Hardware Acceleration Architecture for Real-Time Event-Based
Optical Flow [0.0]
イベントベースの視覚センサは、視覚シーンの変化に基づいて、時間分解能の高い非同期イベントストリームを生成する。
イベントデータから光の流れを計算するための既存の解は、開口問題により運動の真の方向を捉えることができない。
本稿では,低消費電力な組込みプラットフォーム上での真の流れのリアルタイム計算を可能にするfARMSアルゴリズムのハードウェア実現について述べる。
論文 参考訳(メタデータ) (2021-12-13T16:27:17Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z) - Faster than FAST: GPU-Accelerated Frontend for High-Speed VIO [46.20949184826173]
この研究は、既存のコンピュータビジョンアルゴリズムを改善するために、効率的な低レベルGPUハードウェア固有の命令の適用性に焦点を当てている。
特に、非マックス抑圧とその後の特徴選択は、全体的な画像処理遅延への顕著な寄与である。
論文 参考訳(メタデータ) (2020-03-30T14:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。