論文の概要: Video Individual Counting for Moving Drones
- arxiv url: http://arxiv.org/abs/2503.10701v1
- Date: Wed, 12 Mar 2025 07:09:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:06:08.384577
- Title: Video Individual Counting for Moving Drones
- Title(参考訳): 移動中のドローンの計数
- Authors: Yaowu Fan, Jia Wan, Tao Han, Antoni B. Chan, Andy J. Ma,
- Abstract要約: ビデオ個別カウント(VIC)は、インテリジェントなビデオ監視の重要性から、近年注目を集めている。
以前の群衆カウントデータセットは、比較的まばらな個人で固定された、または稀に動くカメラでキャプチャされる。
本研究では,移動DroneCrowdデータセットに基づく密度マップに基づくVIC手法を提案する。
- 参考スコア(独自算出の注目度): 51.429771128144964
- License:
- Abstract: Video Individual Counting (VIC) has received increasing attentions recently due to its importance in intelligent video surveillance. Existing works are limited in two aspects, i.e., dataset and method. Previous crowd counting datasets are captured with fixed or rarely moving cameras with relatively sparse individuals, restricting evaluation for a highly varying view and time in crowded scenes. While VIC methods have been proposed based on localization-then-association or localization-then-classification, they may not perform well due to difficulty in accurate localization of crowded and small targets under challenging scenarios. To address these issues, we collect a MovingDroneCrowd Dataset and propose a density map based VIC method. Different from existing datasets, our dataset consists of videos captured by fast-moving drones in crowded scenes under diverse illuminations, shooting heights and angles. Other than localizing individuals, we propose a Depth-wise Cross-Frame Attention (DCFA) module, which directly estimate inflow and outflow density maps through learning shared density maps between consecutive frames. The inflow density maps across frames are summed up to obtain the number of unique pedestrians in a video. Experiments on our datasets and publicly available ones show the superiority of our method over the state of the arts for VIC in highly dynamic and complex crowded scenes. Our dataset and codes will be released publicly.
- Abstract(参考訳): ビデオ個別カウント(VIC)は、インテリジェントなビデオ監視の重要性から、近年注目を集めている。
既存の作業は、データセットとメソッドの2つの側面に制限されている。
以前の群衆カウントデータセットは、比較的まばらな個人で固定または稀に動くカメラでキャプチャされ、混雑したシーンでの高度に異なるビューと時間の評価が制限される。
VIC法は, 局所化・局所化・局所化・局所化に基づく手法が提案されているが, 難解なシナリオ下では, 密集・小ターゲットの正確な局所化が困難であるため, うまく機能しない可能性がある。
これらの問題に対処するために、移動DroneCrowdデータセットを収集し、密度マップに基づくVIC法を提案する。
既存のデータセットとは違って、当社のデータセットは、さまざまな照度、高さ、角度で混雑したシーンで、素早く動くドローンによって撮影されたビデオで構成されています。
個人をローカライズする以外に、連続するフレーム間の共有密度マップを学習することで、直接インフローとアウトフローの密度マップを推定するDepth-wise Cross-Frame Attention (DCFA)モジュールを提案する。
フレーム間のインフロー密度マップは、ビデオ内のユニークな歩行者の数を取得するためにまとめられる。
我々のデータセットと公開されているデータセットの実験は、非常にダイナミックで複雑な混み合ったシーンにおけるVICの最先端技術よりも、我々の方法の方が優れていることを示している。
データセットとコードは公開されます。
関連論文リスト
- Panonut360: A Head and Eye Tracking Dataset for Panoramic Video [0.0]
15のパノラマ動画を50人のユーザが視聴する頭部と眼の追跡データセットを提示する。
データセットは、ビューポートの詳細を提供し、ユーザーの注意を向ける。
我々の分析では、視野に対する視線固定において、一貫した下向きのオフセットが明らかである。
論文 参考訳(メタデータ) (2024-03-26T13:54:52Z) - Kick Back & Relax++: Scaling Beyond Ground-Truth Depth with SlowTV &
CribsTV [50.616892315086574]
本稿では,SlowTV と CribsTV の2つの新しいデータセットを提案する。
これらは、一般公開されているYouTubeビデオから収集された大規模なデータセットで、合計200万のトレーニングフレームが含まれている。
我々はこれらのデータセットを活用し、ゼロショット一般化の難しい課題に取り組む。
論文 参考訳(メタデータ) (2024-03-03T17:29:03Z) - STCrowd: A Multimodal Dataset for Pedestrian Perception in Crowded
Scenes [78.95447086305381]
3D空間における歩行者の正確な検出と追跡は、回転、ポーズ、スケールの大きなバリエーションのために困難である。
既存のベンチマークは2Dアノテーションのみを提供するか、あるいは低密度の歩行者分布を持つ限定的な3Dアノテーションを持つ。
混み合ったシナリオにおける歩行者認識アルゴリズムをよりよく評価するために,大規模なマルチモーダルデータセットSTCrowdを導入する。
論文 参考訳(メタデータ) (2022-04-03T08:26:07Z) - CrowdDriven: A New Challenging Dataset for Outdoor Visual Localization [44.97567243883994]
クラウドソースデータを用いた屋外シーンにおける視覚的位置推定のための新しいベンチマークを提案する。
私たちのデータセットは非常に困難で、評価されたすべてのメソッドが最も難しい部分で失敗していることが示されています。
データセットリリースの一部として、私たちはそれを生成するために使用されるツールを提供し、効率的で効果的な2D対応アノテーションを可能にします。
論文 参考訳(メタデータ) (2021-09-09T19:25:48Z) - TIMo -- A Dataset for Indoor Building Monitoring with a Time-of-Flight
Camera [9.746370805708095]
タイム・オブ・フライ(ToF)カメラを用いた室内空間の映像監視用データセットTIMoについて述べる。
その結果生まれたディープビデオは、さまざまな事前定義されたアクションを実行する人々を特徴付けている。
対象とする2つのアプリケーションには、計数と異常検出を行う人物検出がある。
論文 参考訳(メタデータ) (2021-08-27T09:33:11Z) - Detection, Tracking, and Counting Meets Drones in Crowds: A Benchmark [97.07865343576361]
DroneCrowdという新しいドローンキャプチャ型大規模データセットによるベンチマークを構築した。
私たちは4800万人の頭といくつかのビデオレベルの属性を持つ20,800人のトラジェクタに注釈を付けます。
我々は、密集した群衆の物体の検出、追跡、数え上げを行うための強力なベースラインとして、Space-Time Neighbor-Aware Network (STNNet)を設計する。
論文 参考訳(メタデータ) (2021-05-06T04:46:14Z) - Motion-guided Non-local Spatial-Temporal Network for Video Crowd
Counting [2.3732259124656903]
本研究では,ビデオ列の全フレームにおけるオブジェクト数を推定するビデオ群カウントについて検討する。
映像群計数のための動き誘導型非局所空間時空間ネットワーク「モネ」を提案する。
このアプローチは他の最先端のアプローチと比べて、maeとmseの点で大幅に優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2021-04-28T18:05:13Z) - Multi-Scale Context Aggregation Network with Attention-Guided for Crowd
Counting [23.336181341124746]
群衆カウントは、人の数を予測し、画像内の密度マップを生成することを目的としている。
さまざまなヘッドスケール、画像間の群衆分布の多様性、散らかった背景など、多くの課題がある。
本稿では,クラウドカウントのための単一カラムエンコーダ・デコーダアーキテクチャに基づくマルチスケールコンテキストアグリゲーションネットワーク(mscanet)を提案する。
論文 参考訳(メタデータ) (2021-04-06T02:24:06Z) - A Flow Base Bi-path Network for Cross-scene Video Crowd Understanding in
Aerial View [93.23947591795897]
本稿では,これらの課題に対処し,ドローンから収集した視覚的データから参加者を自動的に理解する。
クロスシーンテストで発生する背景雑音を軽減するために, 二重ストリーム群カウントモデルを提案する。
極暗環境下での集団密度推定問題に対処するために,ゲームグランドセフトオートV(GTAV)によって生成された合成データを導入する。
論文 参考訳(メタデータ) (2020-09-29T01:48:24Z) - Multiview Detection with Feature Perspective Transformation [59.34619548026885]
本稿では,新しいマルチビュー検出システムMVDetを提案する。
我々は,平面上に特徴写像を投影することで,多視点情報を集約するアンカーフリーアプローチを採っている。
私たちのモデル全体がエンドツーエンドで学習可能で、標準のWildtrackデータセットで88.2%のMODAを実現しています。
論文 参考訳(メタデータ) (2020-07-14T17:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。