論文の概要: Motion-guided Non-local Spatial-Temporal Network for Video Crowd
Counting
- arxiv url: http://arxiv.org/abs/2104.13946v1
- Date: Wed, 28 Apr 2021 18:05:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-30 13:04:24.033195
- Title: Motion-guided Non-local Spatial-Temporal Network for Video Crowd
Counting
- Title(参考訳): 映像群カウントのための移動誘導非局所空間時間ネットワーク
- Authors: Haoyue Bai, S.-H. Gary Chan
- Abstract要約: 本研究では,ビデオ列の全フレームにおけるオブジェクト数を推定するビデオ群カウントについて検討する。
映像群計数のための動き誘導型非局所空間時空間ネットワーク「モネ」を提案する。
このアプローチは他の最先端のアプローチと比べて、maeとmseの点で大幅に優れたパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 2.3732259124656903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study video crowd counting, which is to estimate the number of objects
(people in this paper) in all the frames of a video sequence. Previous work on
crowd counting is mostly on still images. There has been little work on how to
properly extract and take advantage of the spatial-temporal correlation between
neighboring frames in both short and long ranges to achieve high estimation
accuracy for a video sequence. In this work, we propose Monet, a novel and
highly accurate motion-guided non-local spatial-temporal network for video
crowd counting. Monet first takes people flow (motion information) as guidance
to coarsely segment the regions of pixels where a person may be. Given these
regions, Monet then uses a non-local spatial-temporal network to extract
spatial-temporally both short and long-range contextual information. The whole
network is finally trained end-to-end with a fused loss to generate a
high-quality density map. Noting the scarcity and low quality (in terms of
resolution and scene diversity) of the publicly available video crowd datasets,
we have collected and built a large-scale video crowd counting datasets,
VidCrowd, to contribute to the community. VidCrowd contains 9,000 frames of
high resolution (2560 x 1440), with 1,150,239 head annotations captured in
different scenes, crowd density and lighting in two cities. We have conducted
extensive experiments on the challenging VideoCrowd and two public video crowd
counting datasets: UCSD and Mall. Our approach achieves substantially better
performance in terms of MAE and MSE as compared with other state-of-the-art
approaches.
- Abstract(参考訳): 本研究では,映像列の全てのフレームにおける物体数(本論文の人物数)を推定するビデオ群数について検討する。
群衆の数え方に関するこれまでの研究は、主に静止画に基づいている。
ビデオシーケンスの高精度な推定を実現するために,近距離フレームと短距離フレームの空間的時間的相関を適切に抽出し,どのように活用するかは,ほとんど研究されていない。
本研究では,映像群カウントのための新しい,高精度な動き誘導型非局所時空間ネットワークMonetを提案する。
monetはまず、人フロー(動き情報)をガイダンスとして、人がいるかもしれないピクセルの領域を粗く分割する。
これらの領域から、モネは非局所的な時空間ネットワークを使用して、短距離と長距離の両方の空間的時間的情報を抽出する。
ネットワーク全体が最終的に融合損失でエンドツーエンドにトレーニングされ、高品質な密度マップを生成する。
公開ビデオ群集データセットの不足と(解像度とシーンの多様性の観点から)低品質に注目して、コミュニティに貢献するために、大規模なビデオ群集計数データセットであるviscrowdを収集し、構築しました。
VidCrowdには9000フレームの高解像度(2560 x 1440)があり、2つの都市で1,150,239のヘッドアノテーションが撮影されている。
我々は、挑戦的なVideoCrowdと、UCSDとMallの2つの公開ビデオクラウドカウントデータセットに関する広範な実験を行った。
このアプローチは他の最先端のアプローチと比べて、maeとmseの点で大幅に優れたパフォーマンスを実現しています。
関連論文リスト
- Representing Long Volumetric Video with Temporal Gaussian Hierarchy [80.51373034419379]
本稿では,多視点RGBビデオから長いボリューム映像を再構成することの課題を解決することを目的とする。
本稿では,テンポラルガウス階層(Temporal Gaussian Hierarchy)と呼ばれる新しい4次元表現を提案する。
この研究は、最先端のレンダリング品質を維持しながら、ボリュームビデオデータの分を効率的に処理できる最初のアプローチである。
論文 参考訳(メタデータ) (2024-12-12T18:59:34Z) - Multi-scale 2D Temporal Map Diffusion Models for Natural Language Video
Localization [85.85582751254785]
この問題に対処するための新しいアプローチをNLVLに提示する。
本手法は, 条件付きデノナイジング拡散プロセスによるグローバル2次元時間マップの直接生成を含む。
提案手法は,クエリとビデオデータの相互作用を様々な時間スケールで効果的にカプセル化する。
論文 参考訳(メタデータ) (2024-01-16T09:33:29Z) - Scene Summarization: Clustering Scene Videos into Spatially Diverse
Frames [24.614476456145255]
本稿では,映像に基づくシーン理解タスクとして要約を提案する。
シーンの長いウォークスルーを、空間的に多様な小さなフレームにまとめることを目的としている。
私たちのソリューションは、SceneSumという名前の2段階の自己管理パイプラインです。
論文 参考訳(メタデータ) (2023-11-28T22:18:26Z) - PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - Video Crowd Localization with Multi-focus Gaussian Neighbor Attention
and a Large-Scale Benchmark [35.607604087583425]
我々はGNANetと呼ばれる統合ニューラルネットワークを開発し、ビデオクリップ中のヘッドセンターを正確に見つける。
この分野での今後の研究を促進するために,SenseCrowdという大規模ビデオベンチマークを導入する。
提案手法は,ビデオ群集のローカライゼーションとカウントの両面において,最先端のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2021-07-19T06:59:27Z) - Wide-Area Crowd Counting: Multi-View Fusion Networks for Counting in
Large Scenes [50.744452135300115]
マルチビュー・クラウドカウントのためのディープニューラルネットワークフレームワークを提案する。
提案手法は,他のマルチビューカウントベースラインと比較して,最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-12-02T03:20:30Z) - Toward Accurate Person-level Action Recognition in Videos of Crowded
Scenes [131.9067467127761]
我々は、シーンの情報を完全に活用し、新しいデータを集めることで、アクション認識を改善することに集中する。
具体的には、各フレームの空間的位置を検出するために、強い人間の検出器を採用する。
そして、行動認識モデルを適用して、HIEデータセットとインターネットから多様なシーンを持つ新しいデータの両方でビデオフレームから時間情報を学ぶ。
論文 参考訳(メタデータ) (2020-10-16T13:08:50Z) - Learning Joint Spatial-Temporal Transformations for Video Inpainting [58.939131620135235]
本稿では,ビデオインペイントのためのSTTN (Spatial-Temporal Transformer Network) を提案する。
我々は,全ての入力フレームの欠落領域を自己注意で同時に埋めるとともに,空間空間的対角損失によるSTTNの最適化を提案する。
論文 参考訳(メタデータ) (2020-07-20T16:35:48Z) - DVI: Depth Guided Video Inpainting for Autonomous Driving [35.94330601020169]
本稿では,ビデオからトラヒックエージェントを除去する自動インペイントアルゴリズムを提案する。
縫合された点雲から密集した3Dマップを構築することで、ビデオ内のフレームは幾何学的に相関する。
われわれは、ビデオのインペイントのために複数のビデオを融合した最初の人物だ。
論文 参考訳(メタデータ) (2020-07-17T09:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。