論文の概要: Video Individual Counting for Moving Drones
- arxiv url: http://arxiv.org/abs/2503.10701v2
- Date: Mon, 14 Jul 2025 02:32:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 20:53:35.04032
- Title: Video Individual Counting for Moving Drones
- Title(参考訳): 移動中のドローンの計数
- Authors: Yaowu Fan, Jia Wan, Tao Han, Antoni B. Chan, Andy J. Ma,
- Abstract要約: ビデオ・パーソナライズ・カウンティング(VIC)は、インテリジェント・ビデオ監視の重要性から注目を集めている。
以前のデータセットは、比較的まばらな個人で固定または稀に動くカメラでキャプチャされ、混雑したシーンでの高度に異なるビューと時間の評価を制限する。
これらの問題に対処するために、私たちはMovingDroneCrowdデータセットを導入しました。
- 参考スコア(独自算出の注目度): 51.429771128144964
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video Individual Counting (VIC) has received increasing attention for its importance in intelligent video surveillance. Existing works are limited in two aspects, i.e., dataset and method. Previous datasets are captured with fixed or rarely moving cameras with relatively sparse individuals, restricting evaluation for a highly varying view and time in crowded scenes. Existing methods rely on localization followed by association or classification, which struggle under dense and dynamic conditions due to inaccurate localization of small targets. To address these issues, we introduce the MovingDroneCrowd Dataset, featuring videos captured by fast-moving drones in crowded scenes under diverse illuminations, shooting heights and angles. We further propose a Shared Density map-guided Network (SDNet) using a Depth-wise Cross-Frame Attention (DCFA) module to directly estimate shared density maps between consecutive frames, from which the inflow and outflow density maps are derived by subtracting the shared density maps from the global density maps. The inflow density maps across frames are summed up to obtain the number of unique pedestrians in a video. Experiments on our datasets and publicly available ones show the superiority of our method over the state of the arts in highly dynamic and complex crowded scenes. Our dataset and codes have been released publicly.
- Abstract(参考訳): ビデオ・パーソナライズ・カウンティング(VIC)は、インテリジェント・ビデオ監視の重要性から注目を集めている。
既存の作業は、データセットとメソッドの2つの側面に制限されている。
以前のデータセットは、比較的まばらな個人で固定または稀に動くカメラでキャプチャされ、混雑したシーンでの高度に異なるビューと時間の評価を制限する。
既存の手法は、小さなターゲットの不正確な局所化のために密度と動的条件に苦しむ関連性や分類に続き、局所化に依存している。
これらの問題に対処するために、我々はMovingDroneCrowd Datasetを紹介した。
さらに,直交フレーム間の共有密度マップを直接推定するために,DCFAモジュールを用いた共有密度マップ誘導ネットワーク(SDNet)を提案する。
フレーム間のインフロー密度マップは、ビデオ内のユニークな歩行者の数を取得するためにまとめられる。
我々のデータセットと公開可能なデータセットの実験は、非常にダイナミックで複雑な混み合ったシーンにおける最先端技術よりも、我々の方法の方が優れていることを示している。
データセットとコードは公開されています。
関連論文リスト
- Unified Dense Prediction of Video Diffusion [91.16237431830417]
テキストプロンプトからビデオとその対応するエンティティセグメンテーションと深度マップを同時に生成する統合ネットワークを提案する。
カラーマップを用いて実体マスクと深度マップを表現し,RGBビデオ生成と密集予測を密に統合する。
論文 参考訳(メタデータ) (2025-03-12T12:41:02Z) - Panonut360: A Head and Eye Tracking Dataset for Panoramic Video [0.0]
15のパノラマ動画を50人のユーザが視聴する頭部と眼の追跡データセットを提示する。
データセットは、ビューポートの詳細を提供し、ユーザーの注意を向ける。
我々の分析では、視野に対する視線固定において、一貫した下向きのオフセットが明らかである。
論文 参考訳(メタデータ) (2024-03-26T13:54:52Z) - A Density-Guided Temporal Attention Transformer for Indiscernible Object
Counting in Underwater Video [27.329015161325962]
周囲に混在する対象の数を数えることを目的とした、識別不能な対象数カウントは、課題となっている。
本稿では,35の高精細ビデオを含むYoutubeFish-35という大規模データセットを提案する。
統合されたフレームワークにおいて、時間領域に沿って密度と回帰の分岐を結合した新しい強力なベースラインであるTransVidCountを提案する。
論文 参考訳(メタデータ) (2024-03-06T04:54:00Z) - Kick Back & Relax++: Scaling Beyond Ground-Truth Depth with SlowTV &
CribsTV [50.616892315086574]
本稿では,SlowTV と CribsTV の2つの新しいデータセットを提案する。
これらは、一般公開されているYouTubeビデオから収集された大規模なデータセットで、合計200万のトレーニングフレームが含まれている。
我々はこれらのデータセットを活用し、ゼロショット一般化の難しい課題に取り組む。
論文 参考訳(メタデータ) (2024-03-03T17:29:03Z) - STCrowd: A Multimodal Dataset for Pedestrian Perception in Crowded
Scenes [78.95447086305381]
3D空間における歩行者の正確な検出と追跡は、回転、ポーズ、スケールの大きなバリエーションのために困難である。
既存のベンチマークは2Dアノテーションのみを提供するか、あるいは低密度の歩行者分布を持つ限定的な3Dアノテーションを持つ。
混み合ったシナリオにおける歩行者認識アルゴリズムをよりよく評価するために,大規模なマルチモーダルデータセットSTCrowdを導入する。
論文 参考訳(メタデータ) (2022-04-03T08:26:07Z) - CrowdDriven: A New Challenging Dataset for Outdoor Visual Localization [44.97567243883994]
クラウドソースデータを用いた屋外シーンにおける視覚的位置推定のための新しいベンチマークを提案する。
私たちのデータセットは非常に困難で、評価されたすべてのメソッドが最も難しい部分で失敗していることが示されています。
データセットリリースの一部として、私たちはそれを生成するために使用されるツールを提供し、効率的で効果的な2D対応アノテーションを可能にします。
論文 参考訳(メタデータ) (2021-09-09T19:25:48Z) - TIMo -- A Dataset for Indoor Building Monitoring with a Time-of-Flight
Camera [9.746370805708095]
タイム・オブ・フライ(ToF)カメラを用いた室内空間の映像監視用データセットTIMoについて述べる。
その結果生まれたディープビデオは、さまざまな事前定義されたアクションを実行する人々を特徴付けている。
対象とする2つのアプリケーションには、計数と異常検出を行う人物検出がある。
論文 参考訳(メタデータ) (2021-08-27T09:33:11Z) - DnD: Dense Depth Estimation in Crowded Dynamic Indoor Scenes [68.38952377590499]
複雑な屋内環境の中を移動する単眼カメラから奥行きを推定するための新しい手法を提案する。
提案手法は,静的な背景と複数の移動する人物からなるシーン全体にわたる絶対規模の深度マップを推定する。
論文 参考訳(メタデータ) (2021-08-12T09:12:39Z) - Detection, Tracking, and Counting Meets Drones in Crowds: A Benchmark [97.07865343576361]
DroneCrowdという新しいドローンキャプチャ型大規模データセットによるベンチマークを構築した。
私たちは4800万人の頭といくつかのビデオレベルの属性を持つ20,800人のトラジェクタに注釈を付けます。
我々は、密集した群衆の物体の検出、追跡、数え上げを行うための強力なベースラインとして、Space-Time Neighbor-Aware Network (STNNet)を設計する。
論文 参考訳(メタデータ) (2021-05-06T04:46:14Z) - Motion-guided Non-local Spatial-Temporal Network for Video Crowd
Counting [2.3732259124656903]
本研究では,ビデオ列の全フレームにおけるオブジェクト数を推定するビデオ群カウントについて検討する。
映像群計数のための動き誘導型非局所空間時空間ネットワーク「モネ」を提案する。
このアプローチは他の最先端のアプローチと比べて、maeとmseの点で大幅に優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2021-04-28T18:05:13Z) - Multi-Scale Context Aggregation Network with Attention-Guided for Crowd
Counting [23.336181341124746]
群衆カウントは、人の数を予測し、画像内の密度マップを生成することを目的としている。
さまざまなヘッドスケール、画像間の群衆分布の多様性、散らかった背景など、多くの課題がある。
本稿では,クラウドカウントのための単一カラムエンコーダ・デコーダアーキテクチャに基づくマルチスケールコンテキストアグリゲーションネットワーク(mscanet)を提案する。
論文 参考訳(メタデータ) (2021-04-06T02:24:06Z) - DeepVideoMVS: Multi-View Stereo on Video with Recurrent Spatio-Temporal
Fusion [67.64047158294062]
提案手法は,提案するビデオストリームに対するオンライン多視点深度予測手法である。
前のタイムステップで計算されたシーン形状情報を現在のタイムステップに伝搬する。
評価指標のほとんどにおいて、既存の最先端のマルチビューステレオ手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-03T18:54:03Z) - A Flow Base Bi-path Network for Cross-scene Video Crowd Understanding in
Aerial View [93.23947591795897]
本稿では,これらの課題に対処し,ドローンから収集した視覚的データから参加者を自動的に理解する。
クロスシーンテストで発生する背景雑音を軽減するために, 二重ストリーム群カウントモデルを提案する。
極暗環境下での集団密度推定問題に対処するために,ゲームグランドセフトオートV(GTAV)によって生成された合成データを導入する。
論文 参考訳(メタデータ) (2020-09-29T01:48:24Z) - Tracking-by-Counting: Using Network Flows on Crowd Density Maps for
Tracking Multiple Targets [96.98888948518815]
State-of-the-art multi-object tracking(MOT)法は、トラッキング・バイ・検出のパラダイムに従っている。
混み合ったシーンに適したMOTパラダイムであるトラッキング・バイ・カウントを提案する。
論文 参考訳(メタデータ) (2020-07-18T19:51:53Z) - Multiview Detection with Feature Perspective Transformation [59.34619548026885]
本稿では,新しいマルチビュー検出システムMVDetを提案する。
我々は,平面上に特徴写像を投影することで,多視点情報を集約するアンカーフリーアプローチを採っている。
私たちのモデル全体がエンドツーエンドで学習可能で、標準のWildtrackデータセットで88.2%のMODAを実現しています。
論文 参考訳(メタデータ) (2020-07-14T17:58:30Z) - PDANet: Pyramid Density-aware Attention Net for Accurate Crowd Counting [7.02081613648832]
関心領域内の群衆密度の大規模な変動のため、群衆カウントは依然としてオープンな現実の問題である。
PDANetと略される新しいピラミッド密度認識型ネットワークを提案する。これは、注目度、ピラミッドスケール機能、および2つの分岐デコーダモジュールを活用して、密度認識型クラウドカウントを行う。
論文 参考訳(メタデータ) (2020-01-16T04:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。