論文の概要: Video Crowd Localization with Multi-focus Gaussian Neighbor Attention
and a Large-Scale Benchmark
- arxiv url: http://arxiv.org/abs/2107.08645v1
- Date: Mon, 19 Jul 2021 06:59:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-20 14:57:21.219430
- Title: Video Crowd Localization with Multi-focus Gaussian Neighbor Attention
and a Large-Scale Benchmark
- Title(参考訳): マルチフォーカスgaussian neighbor attentionと大規模ベンチマークによる映像群像定位
- Authors: Haopeng Li, Lingbo Liu, Kunlin Yang, Shinan Liu, Junyu Gao, Bin Zhao,
Rui Zhang, Jun Hou
- Abstract要約: 我々はGNANetと呼ばれる統合ニューラルネットワークを開発し、ビデオクリップ中のヘッドセンターを正確に見つける。
この分野での今後の研究を促進するために,SenseCrowdという大規模ビデオベンチマークを導入する。
提案手法は,ビデオ群集のローカライゼーションとカウントの両面において,最先端のパフォーマンスを実現することができる。
- 参考スコア(独自算出の注目度): 35.607604087583425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video crowd localization is a crucial yet challenging task, which aims to
estimate exact locations of human heads in the given crowded videos. To model
spatial-temporal dependencies of human mobility, we propose a multi-focus
Gaussian neighbor attention (GNA), which can effectively exploit long-range
correspondences while maintaining the spatial topological structure of the
input videos. In particular, our GNA can also capture the scale variation of
human heads well using the equipped multi-focus mechanism. Based on the
multi-focus GNA, we develop a unified neural network called GNANet to
accurately locate head centers in video clips by fully aggregating
spatial-temporal information via a scene modeling module and a context
cross-attention module. Moreover, to facilitate future researches in this
field, we introduce a large-scale crowded video benchmark named SenseCrowd,
which consists of 60K+ frames captured in various surveillance scenarios and
2M+ head annotations. Finally, we conduct extensive experiments on three
datasets including our SenseCrowd, and the experiment results show that the
proposed method is capable to achieve state-of-the-art performance for both
video crowd localization and counting. The code and the dataset will be
released.
- Abstract(参考訳): これは、混雑したビデオの中で人間の頭の位置を正確に推定することを目的としている。
本研究では,人間のモビリティの空間的-時間的依存性をモデル化するために,入力映像の空間トポロジ構造を維持しつつ,長距離対応を効果的に活用できるマルチフォーカスガウス近傍注意(gna)を提案する。
特に我々のGNAは、装備されたマルチフォーカス機構を用いて、人間の頭部のスケールの変動をうまく捉えることができる。
マルチフォーカスGNAをベースとして,シーンモデリングモジュールとコンテキストクロスアテンションモジュールを介して空間的情報を完全に集約することにより,映像クリップ内の頭部を正確に検出する,GNANetと呼ばれる統合ニューラルネットワークを開発した。
さらに,この分野での今後の研究を促進するために,様々な監視シナリオでキャプチャされた60K以上のフレームと2M以上のヘッドアノテーションからなる大規模ビデオベンチマーク「SenseCrowd」を導入する。
最後に,senseicrowdを含む3つのデータセットについて広範な実験を行い,実験結果から,提案手法が動画群集のローカライズとカウントの両方において最先端のパフォーマンスを実現することができることを示した。
コードとデータセットがリリースされます。
関連論文リスト
- ViewFormer: Exploring Spatiotemporal Modeling for Multi-View 3D Occupancy Perception via View-Guided Transformers [9.271932084757646]
3Dの占有は、前景と背景を物理的空間で区別することなく、全体のシーンをグリッドマップに表現する。
本稿では,効果的な多視点特徴集約のための学習優先視点アテンション機構を提案する。
既存の高品質データセットの上に構築されたベンチマークであるFlowOcc3Dを紹介します。
論文 参考訳(メタデータ) (2024-05-07T13:15:07Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Enhancing Egocentric 3D Pose Estimation with Third Person Views [37.9683439632693]
本研究では,1台のウェアラブルカメラから撮影した映像から計算した人物の3次元身振り推定を強化する新しい手法を提案する。
First2Third-Poseは、最初の視点と第三視点の両方から捉えた人間の活動を描いた2000近いビデオからなる、ペア化された新しい同期データセットである。
実験により,データセットを用いて学習した多視点埋め込み空間は,任意の単視点自我中心ビデオから識別的特徴を抽出するのに有用であることが示された。
論文 参考訳(メタデータ) (2022-01-06T11:42:01Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。