論文の概要: A Spatio-Temporal Attentive Network for Video-Based Crowd Counting
- arxiv url: http://arxiv.org/abs/2208.11339v1
- Date: Wed, 24 Aug 2022 07:40:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-25 12:46:25.234698
- Title: A Spatio-Temporal Attentive Network for Video-Based Crowd Counting
- Title(参考訳): ビデオによる集団カウントのための時空間アテンテートネットワーク
- Authors: Marco Avvenuti, Marco Bongiovanni, Luca Ciampi, Fabrizio Falchi,
Claudio Gennaro, Nicola Messina
- Abstract要約: 現在のコンピュータビジョン技術は、個々の画像中の歩行者の密度を推定するディープラーニングベースのアルゴリズムに依存している。
連続フレーム間の時間的時間的相関を利用して、注意時間的カウントを5%、ローカライズ誤差を7.5%減らした。
- 参考スコア(独自算出の注目度): 5.556665316806146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic people counting from images has recently drawn attention for urban
monitoring in modern Smart Cities due to the ubiquity of surveillance camera
networks. Current computer vision techniques rely on deep learning-based
algorithms that estimate pedestrian densities in still, individual images. Only
a bunch of works take advantage of temporal consistency in video sequences. In
this work, we propose a spatio-temporal attentive neural network to estimate
the number of pedestrians from surveillance videos. By taking advantage of the
temporal correlation between consecutive frames, we lowered state-of-the-art
count error by 5% and localization error by 7.5% on the widely-used FDST
benchmark.
- Abstract(参考訳): 画像からカウントする自動的な人々は、監視カメラネットワークが普及していることから、現代のスマートシティにおける都市監視に注目されている。
現在のコンピュータビジョン技術は、個々の画像の歩行者密度を推定するディープラーニングベースのアルゴリズムに依存している。
ビデオシーケンスの時間的一貫性を利用するのは、作品の束だけだ。
本研究では,監視映像から歩行者数を推定するための時空間的注意型ニューラルネットワークを提案する。
連続フレーム間の時間的相関を利用して,fdstベンチマークにおいて,最先端のカウントエラーを5%,ローカライズエラーを7.5%低減した。
関連論文リスト
- Violence detection in videos using deep recurrent and convolutional neural networks [0.0]
繰り返しニューラルネットワーク(RNN)と2次元畳み込みニューラルネットワーク(2D CNN)を組み合わせた暴力検出のためのディープラーニングアーキテクチャを提案する。
ビデオフレームに加えて、キャプチャーシーケンスを用いて計算した光フローを用いる。
提案手法は最先端技術と同じレベルに達し,時折それらを上回るものとなる。
論文 参考訳(メタデータ) (2024-09-11T19:21:51Z) - DroneAttention: Sparse Weighted Temporal Attention for Drone-Camera
Based Activity Recognition [2.705905918316948]
ドローン搭載カメラを用いた人間行動認識(HAR)は近年,コンピュータビジョン研究コミュニティから大きな関心を集めている。
本研究では, 疎サンプリングされたビデオフレームをグローバルに重み付けした時間的注意力を得るために, 新たにSparse Weighted Temporal Attention (SWTA) モジュールを提案する。
提案されたモデルでは、各データセットで72.76%、92.56%、78.86%の精度が得られた。
論文 参考訳(メタデータ) (2022-12-07T00:33:40Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Real Time Action Recognition from Video Footage [0.5219568203653523]
ビデオ監視カメラは犯罪を検知する新しい次元を追加した。
本研究は、暴力行為を検出するための自律監視のための堅牢なパイプラインを確保するために、最先端のディープラーニング手法を統合することに焦点を当てる。
論文 参考訳(メタデータ) (2021-12-13T07:27:41Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Motion-guided Non-local Spatial-Temporal Network for Video Crowd
Counting [2.3732259124656903]
本研究では,ビデオ列の全フレームにおけるオブジェクト数を推定するビデオ群カウントについて検討する。
映像群計数のための動き誘導型非局所空間時空間ネットワーク「モネ」を提案する。
このアプローチは他の最先端のアプローチと比べて、maeとmseの点で大幅に優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2021-04-28T18:05:13Z) - Video Action Recognition Using spatio-temporal optical flow video frames [0.0]
ビデオにおける人間の行動の認識には多くの問題がある。
本稿では,Deep Neural Networksを用いたビデオ分類のための空間的および時間的パターン認識に注目する。
最終認識精度は約94%であった。
論文 参考訳(メタデータ) (2021-02-05T19:46:49Z) - DeepVideoMVS: Multi-View Stereo on Video with Recurrent Spatio-Temporal
Fusion [67.64047158294062]
提案手法は,提案するビデオストリームに対するオンライン多視点深度予測手法である。
前のタイムステップで計算されたシーン形状情報を現在のタイムステップに伝搬する。
評価指標のほとんどにおいて、既存の最先端のマルチビューステレオ手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-03T18:54:03Z) - Counting People by Estimating People Flows [135.85747920798897]
我々は、直接回帰するのではなく、連続した画像間の画像位置を流れる人々のフローを推定することを提唱する。
より複雑なアーキテクチャを必要とすることなく、パフォーマンスを大幅に向上します。
また,空間的制約と時間的制約を両立させることで,深い群集数モデルの訓練を可能にすることを示す。
論文 参考訳(メタデータ) (2020-12-01T12:59:24Z) - A Prospective Study on Sequence-Driven Temporal Sampling and Ego-Motion
Compensation for Action Recognition in the EPIC-Kitchens Dataset [68.8204255655161]
行動認識はコンピュータビジョンにおける最上位の研究分野の一つである。
エゴモーション記録シーケンスは重要な関連性を持つようになった。
提案手法は,このエゴモーションやカメラの動きを推定して対処することを目的としている。
論文 参考訳(メタデータ) (2020-08-26T14:44:45Z) - TimeConvNets: A Deep Time Windowed Convolution Neural Network Design for
Real-time Video Facial Expression Recognition [93.0013343535411]
本研究では、リアルタイムな映像表情認識を目的とした、新しい時間窓付き畳み込みニューラルネットワーク設計(TimeConvNets)について検討する。
我々は,TimeConvNetsが表情の過度なニュアンスを捕捉し,低い推論時間を維持しながら分類精度を高めることができることを示した。
論文 参考訳(メタデータ) (2020-03-03T20:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。