Fugu-MT 論文翻訳(概要): Real-Time Human Action Recognition on Embedded Platforms

論文の概要: Real-Time Human Action Recognition on Embedded Platforms

arxiv url: http://arxiv.org/abs/2409.05662v2
Date: Wed, 11 Sep 2024 14:21:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-12 13:13:20.785971
Title: Real-Time Human Action Recognition on Embedded Platforms
Title（参考訳）: 組込みプラットフォーム上でのリアルタイム人間行動認識
Authors: Ruiqi Wang, Zichen Wang, Peiqi Gao, Mingzhen Li, Jaehwan Jeong, Yihang Xu, Yejin Lee, Carolyn M. Baum, Lisa Tabor Connor, Chenyang Lu,
Abstract要約: 本研究は,映像に基づくヒューマンアクション認識(HAR)のリアルタイムパフォーマンス課題を4つのコントリビューションで解決する。 RT-HAREは組み込みプラットフォームに適したリアルタイムHARシステムである。 Nvidia Jetson Xavier NXプラットフォームの実験結果によると、RT-HAREはリアルタイムHARを毎秒30フレームのフレームレートで実現している。
参考スコア（独自算出の注目度）: 10.905968330685393
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With advancements in computer vision and deep learning, video-based human action recognition (HAR) has become practical. However, due to the complexity of the computation pipeline, running HAR on live video streams incurs excessive delays on embedded platforms. This work tackles the real-time performance challenges of HAR with four contributions: 1) an experimental study identifying a standard Optical Flow (OF) extraction technique as the latency bottleneck in a state-of-the-art HAR pipeline, 2) an exploration of the latency-accuracy tradeoff between the standard and deep learning approaches to OF extraction, which highlights the need for a novel, efficient motion feature extractor, 3) the design of Integrated Motion Feature Extractor (IMFE), a novel single-shot neural network architecture for motion feature extraction with drastic improvement in latency, 4) the development of RT-HARE, a real-time HAR system tailored for embedded platforms. Experimental results on an Nvidia Jetson Xavier NX platform demonstrated that RT-HARE realizes real-time HAR at a video frame rate of 30 frames per second while delivering high levels of recognition accuracy.
Abstract（参考訳）: コンピュータビジョンと深層学習の進歩により,映像に基づく人間行動認識(HAR)が実用化されている。しかし、計算パイプラインの複雑さのため、ライブビデオストリーム上でHARを実行すると、組み込みプラットフォームでは過度な遅延が発生する。この作業は、HARのリアルタイムパフォーマンス課題に4つのコントリビューションで取り組みます。 1) 最先端HARパイプラインにおける遅延ボトルネックとして標準光学フロー(OF)抽出手法を同定する実験的検討。 2) 新たな効率的な動作特徴抽出器の必要性を浮き彫りにした,標準手法と深層学習手法との遅延精度のトレードオフを探る。 3) 動作特徴抽出のための新しい単一ショットニューラルネットワークアーキテクチャであるIce(Integrated Motion Feature Extractor)の設計。 4)組み込みプラットフォームに適したリアルタイムHARシステムRT-HAREの開発。 Nvidia Jetson Xavier NXプラットフォームの実験結果によると、RT-HAREはリアルタイムHARを毎秒30フレームのフレームレートで実現し、高いレベルの認識精度を実現している。

関連論文リスト

Faster than Fast: Accelerating Oriented FAST Feature Detection on Low-end Embedded GPUs [11.639825636679454]
本稿では,ローエンド組込みGPUにおける指向性FAST特徴検出を高速化する2つの手法を提案する。 Jetson TX2組み込みGPUの実験では、GPUをサポートする広く使われているOpenCVと比較して平均速度が7.3倍以上に向上した。
論文参考訳（メタデータ） (2025-06-08T14:30:30Z)
Towards Low-Latency Event Stream-based Visual Object Tracking: A Slow-Fast Approach [32.91982063297922]
我々は,SFTrackと呼ばれる,異なる運用要件に柔軟に対応する新しいスローファストトラッキングパラダイムを提案する。提案するフレームワークは2つの補完モード,すなわち,十分な計算資源を持つシナリオを対象とした高精度なスロートラッカと,レイテンシを意識したリソース制約のある環境に適した効率的な高速トラッカをサポートする。このフレームワークは,まず高時間分解能イベントストリームからグラフベースの表現学習を行い,学習したグラフ構造化情報を2つのFlashAttentionベースのビジョンバックボーンに統合する。
論文参考訳（メタデータ） (2025-05-19T09:37:23Z)
Col-OLHTR: A Novel Framework for Multimodal Online Handwritten Text Recognition [82.88856416080331]
オンライン手書き文字認識(OLHTR)は様々な用途で注目されている。現在のアプローチは通常、OLHTRをシーケンス認識タスクとして扱い、単一のトラジェクトリまたはイメージエンコーダまたはマルチストリームエンコーダを使用する。単ストリーム推論プロセスを維持しながら、トレーニング中にマルチモーダルな特徴を学習するコラボレーティブ学習ベースのOLHTRフレームワークCol-OLHTRを提案する。
論文参考訳（メタデータ） (2025-02-10T02:12:24Z)
Energy-Efficient Spiking Recurrent Neural Network for Gesture Recognition on Embedded GPUs [1.37621344207686]
本研究では,スピーキングリカレントニューラルネットワーク(SRNN)と液体時間定数ニューロンを併用したジェスチャー認識システムについて検討した。 NVIDIA Jetson Nano組み込みGPUプラットフォームにおけるエネルギー効率と計算効率に着目した。
論文参考訳（メタデータ） (2024-08-23T10:50:29Z)
Revisiting Learning-based Video Motion Magnification for Real-time Processing [23.148430647367224]
動画の動きを拡大する技術は、裸眼で見えないビデオの中で微妙な動きを捉え、増幅する技術である。 FLOPを4.2倍小さくし,従来よりも2.7倍高速なリアルタイム深層学習に基づく動き倍率モデルを提案する。
論文参考訳（メタデータ） (2024-03-04T09:57:08Z)
Spatiotemporal Attention-based Semantic Compression for Real-time Video Recognition [117.98023585449808]
本稿では,各フレームにおけるフレームと画素の重要性を評価するために,時間的注意に基づくオートエンコーダ(STAE)アーキテクチャを提案する。我々は3D-2D CNNを組み合わせた軽量デコーダを開発し、欠落した情報を再構成する。実験の結果,VT_STAEはビデオデータセットH51を,5%の精度で104倍圧縮できることがわかった。
論文参考訳（メタデータ） (2023-05-22T07:47:27Z)
You Can Ground Earlier than See: An Effective and Efficient Pipeline for Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文参考訳（メタデータ） (2023-03-14T12:53:27Z)
ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。 ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2022-05-14T21:16:21Z)
hARMS: A Hardware Acceleration Architecture for Real-Time Event-Based Optical Flow [0.0]
イベントベースの視覚センサは、視覚シーンの変化に基づいて、時間分解能の高い非同期イベントストリームを生成する。イベントデータから光の流れを計算するための既存の解は、開口問題により運動の真の方向を捉えることができない。本稿では,低消費電力な組込みプラットフォーム上での真の流れのリアルタイム計算を可能にするfARMSアルゴリズムのハードウェア実現について述べる。
論文参考訳（メタデータ） (2021-12-13T16:27:17Z)
FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文参考訳（メタデータ） (2021-03-08T03:09:37Z)
Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文参考訳（メタデータ） (2020-11-08T10:40:26Z)
A Real-time Action Representation with Temporal Encoding and Deep Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。 T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文参考訳（メタデータ） (2020-06-17T06:30:43Z)
Faster than FAST: GPU-Accelerated Frontend for High-Speed VIO [46.20949184826173]
この研究は、既存のコンピュータビジョンアルゴリズムを改善するために、効率的な低レベルGPUハードウェア固有の命令の適用性に焦点を当てている。特に、非マックス抑圧とその後の特徴選択は、全体的な画像処理遅延への顕著な寄与である。
論文参考訳（メタデータ） (2020-03-30T14:16:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。