論文の概要: ACDnet: An action detection network for real-time edge computing based
on flow-guided feature approximation and memory aggregation
- arxiv url: http://arxiv.org/abs/2102.13493v1
- Date: Fri, 26 Feb 2021 14:06:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-01 13:51:57.926289
- Title: ACDnet: An action detection network for real-time edge computing based
on flow-guided feature approximation and memory aggregation
- Title(参考訳): ACDnet:フロー誘導特徴近似とメモリ集約に基づくリアルタイムエッジコンピューティングのための行動検出ネットワーク
- Authors: Yu Liu, Fan Yang and Dominique Ginhac
- Abstract要約: ACDnetは、リアルタイムエッジコンピューティングをターゲットとしたコンパクトなアクション検出ネットワークです。
連続するビデオフレーム間の時間的コヒーレンスを利用してCNNの特徴を近似する。
リアルタイム(75FPS)よりはるかに高い精度で検出できる。
- 参考スコア(独自算出の注目度): 8.013823319651395
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Interpreting human actions requires understanding the spatial and temporal
context of the scenes. State-of-the-art action detectors based on Convolutional
Neural Network (CNN) have demonstrated remarkable results by adopting
two-stream or 3D CNN architectures. However, these methods typically operate in
a non-real-time, ofline fashion due to system complexity to reason
spatio-temporal information. Consequently, their high computational cost is not
compliant with emerging real-world scenarios such as service robots or public
surveillance where detection needs to take place at resource-limited edge
devices. In this paper, we propose ACDnet, a compact action detection network
targeting real-time edge computing which addresses both efficiency and
accuracy. It intelligently exploits the temporal coherence between successive
video frames to approximate their CNN features rather than naively extracting
them. It also integrates memory feature aggregation from past video frames to
enhance current detection stability, implicitly modeling long temporal cues
over time. Experiments conducted on the public benchmark datasets UCF-24 and
JHMDB-21 demonstrate that ACDnet, when integrated with the SSD detector, can
robustly achieve detection well above real-time (75 FPS). At the same time, it
retains reasonable accuracy (70.92 and 49.53 frame mAP) compared to other
top-performing methods using far heavier configurations. Codes will be
available at https://github.com/dginhac/ACDnet.
- Abstract(参考訳): 人間の行動を解釈するには、シーンの空間的および時間的コンテキストを理解する必要があります。
Convolutional Neural Network(CNN)に基づく最先端のアクションディテクタは、2流または3次元CNNアーキテクチャを採用することで顕著な成果を発揮しました。
しかしながら、これらの手法は通常、時空間情報を推論するシステムの複雑さのため、非リアルタイムの正ライン方式で機能する。
その結果、高い計算コストは、リソース制限のあるエッジデバイスで検出を行う必要があるサービスロボットや公共監視などの新興の現実世界のシナリオには適用されません。
本稿では,効率性と精度を両立したリアルタイムエッジコンピューティングをターゲットとしたコンパクトアクション検出ネットワークACDnetを提案する。
連続したビデオフレーム間の時間的コヒーレンスをインテリジェントに活用してCNNの機能を素朴に抽出するのではなく近似する。
また、過去のビデオフレームからのメモリ機能集約を統合して、現在の検出安定性を高め、時間とともに長い時間的手がかりを暗黙的にモデル化する。
パブリックベンチマークデータセット UCF-24 と JHMDB-21 で実施された実験は、SSD検出器と統合された ACDnet がリアルタイム(75 FPS)よりはるかに高い精度で検出できることを示した。
同時に70.92と49.53フレームのmAPの精度は、非常に重い構成を用いる他のトップパフォーマンス手法と比べても高い。
コードはhttps://github.com/dginhac/ACDnetで入手できる。
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Local Compressed Video Stream Learning for Generic Event Boundary
Detection [25.37983456118522]
イベント境界検出は、ビデオをチャンクに分割する一般的な分類なしのイベント境界をローカライズすることを目的としている。
既存の方法は、通常、ネットワークに入力する前にビデオフレームをデコードする必要がある。
本稿では,圧縮領域におけるリッチな情報を活用する完全エンドツーエンドのイベント境界検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-27T06:49:40Z) - Spatiotemporal Attention-based Semantic Compression for Real-time Video
Recognition [117.98023585449808]
本稿では,各フレームにおけるフレームと画素の重要性を評価するために,時間的注意に基づくオートエンコーダ(STAE)アーキテクチャを提案する。
我々は3D-2D CNNを組み合わせた軽量デコーダを開発し、欠落した情報を再構成する。
実験の結果,VT_STAEはビデオデータセットH51を,5%の精度で104倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2023-05-22T07:47:27Z) - DroneAttention: Sparse Weighted Temporal Attention for Drone-Camera
Based Activity Recognition [2.705905918316948]
ドローン搭載カメラを用いた人間行動認識(HAR)は近年,コンピュータビジョン研究コミュニティから大きな関心を集めている。
本研究では, 疎サンプリングされたビデオフレームをグローバルに重み付けした時間的注意力を得るために, 新たにSparse Weighted Temporal Attention (SWTA) モジュールを提案する。
提案されたモデルでは、各データセットで72.76%、92.56%、78.86%の精度が得られた。
論文 参考訳(メタデータ) (2022-12-07T00:33:40Z) - Spatio-Temporal-based Context Fusion for Video Anomaly Detection [1.7710335706046505]
ビデオ異常はビデオ内の異常な事象を発見することを目的としており、主な対象は人や車などの対象物である。
既存のほとんどの手法は、異常検出における空間的コンテキストの役割を無視して、時間的コンテキストのみに焦点を当てている。
本稿では,目標時間文脈融合に基づくビデオ異常検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-18T04:07:10Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Parallel Detection for Efficient Video Analytics at the Edge [5.547133811014004]
ディープニューラルネットワーク(DNN)訓練対象検出器は、エッジでのリアルタイムビデオ分析のためにミッションクリティカルシステムに広くデプロイされている。
ミッションクリティカルエッジサービスにおける一般的なパフォーマンス要件は、エッジデバイス上でのオンラインオブジェクト検出のほぼリアルタイムレイテンシである。
本稿では,エッジシステムにおける高速物体検出のためのマルチモデルマルチデバイス検出並列性を利用して,これらの問題に対処する。
論文 参考訳(メタデータ) (2021-07-27T02:50:46Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - Depthwise Non-local Module for Fast Salient Object Detection Using a
Single Thread [136.2224792151324]
本稿では,高速な物体検出のための新しいディープラーニングアルゴリズムを提案する。
提案アルゴリズムは,1つのCPUスレッドと同時に,競合精度と高い推論効率を実現する。
論文 参考訳(メタデータ) (2020-01-22T15:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。