論文の概要: Handling Heavy Occlusion in Dense Crowd Tracking by Focusing on the
Heads
- arxiv url: http://arxiv.org/abs/2304.07705v3
- Date: Mon, 30 Oct 2023 23:41:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 03:05:12.625811
- Title: Handling Heavy Occlusion in Dense Crowd Tracking by Focusing on the
Heads
- Title(参考訳): 密集群集追跡における重度咬合の頭部集中による対処
- Authors: Yu Zhang, Huaming Chen, Wei Bao, Zhongzheng Lai, Zao Zhang, Dong Yuan
- Abstract要約: 本研究では,歩行者のリコールと精度向上を図るために,アンカーレス方式のジョイントヘッドとボディ検出器を設計した。
本モデルでは,訓練用歩行者検出のための統計的頭部比に関する情報は不要である。
このモデルを,MOT20,Crowd Human,HT21データセットなど,さまざまなデータセットに対する広範な実験により評価する。
- 参考スコア(独自算出の注目度): 29.80438304958294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid development of deep learning, object detection and tracking
play a vital role in today's society. Being able to identify and track all the
pedestrians in the dense crowd scene with computer vision approaches is a
typical challenge in this field, also known as the Multiple Object Tracking
(MOT) challenge. Modern trackers are required to operate on more and more
complicated scenes. According to the MOT20 challenge result, the pedestrian is
4 times denser than the MOT17 challenge. Hence, improving the ability to detect
and track in extremely crowded scenes is the aim of this work. In light of the
occlusion issue with the human body, the heads are usually easier to identify.
In this work, we have designed a joint head and body detector in an anchor-free
style to boost the detection recall and precision performance of pedestrians in
both small and medium sizes. Innovatively, our model does not require
information on the statistical head-body ratio for common pedestrians detection
for training. Instead, the proposed model learns the ratio dynamically. To
verify the effectiveness of the proposed model, we evaluate the model with
extensive experiments on different datasets, including MOT20, Crowdhuman, and
HT21 datasets. As a result, our proposed method significantly improves both the
recall and precision rate on small & medium sized pedestrians and achieves
state-of-the-art results in these challenging datasets.
- Abstract(参考訳): ディープラーニングの急速な発展に伴い、オブジェクト検出と追跡は、今日の社会において重要な役割を果たす。
密集した群衆シーンのすべての歩行者をコンピュータビジョンのアプローチで識別し追跡することは、この分野で典型的な課題であり、Multiple Object Tracking(MOT)チャレンジとも呼ばれる。
現代のトラッカーは、より複雑なシーンで操作する必要がある。
MOT20チャレンジの結果によると、歩行者はMOT17チャレンジの4倍密度がある。
したがって、非常に混み合った場面で検出・追跡する能力を向上させることが、この研究の目的である。
人体に対する咬合問題に照らし合わせると、頭部は通常より識別が容易である。
本研究では,小型・中型ともに歩行者のリコールと精度の向上を図るために,アンカーレス方式のジョイントヘッドとボディ検出器を設計した。
また,本モデルでは,訓練用歩行者検出のための統計的頭部比に関する情報は不要である。
提案するモデルは,その比率を動的に学習する。
提案モデルの有効性を検証するため,MOT20,Crowd Human,HT21データセットなど,さまざまなデータセットに対する広範な実験を行った。
その結果,提案手法は中小歩行者のリコール率と精度を著しく改善し,これらの課題データセットにおいて最先端の結果を得ることができた。
関連論文リスト
- MAML MOT: Multiple Object Tracking based on Meta-Learning [7.892321926673001]
MAML MOTは、マルチオブジェクト追跡のためのメタラーニングベースのトレーニングアプローチである。
マルチオブジェクト追跡のためのメタラーニングに基づくトレーニング手法であるMAML MOTを紹介する。
論文 参考訳(メタデータ) (2024-05-12T12:38:40Z) - LoRA-like Calibration for Multimodal Deception Detection using ATSFace
Data [1.550120821358415]
本稿では,ビデオデータや誤認識のダイナミクスに固有の課題に対処する,注意を意識したニューラルネットワークを提案する。
我々は、精度を高めるマルチモーダル融合戦略を採用し、実生活の試行データセット上で92%の精度で精度を向上する。
論文 参考訳(メタデータ) (2023-09-04T06:22:25Z) - STCrowd: A Multimodal Dataset for Pedestrian Perception in Crowded
Scenes [78.95447086305381]
3D空間における歩行者の正確な検出と追跡は、回転、ポーズ、スケールの大きなバリエーションのために困難である。
既存のベンチマークは2Dアノテーションのみを提供するか、あるいは低密度の歩行者分布を持つ限定的な3Dアノテーションを持つ。
混み合ったシナリオにおける歩行者認識アルゴリズムをよりよく評価するために,大規模なマルチモーダルデータセットSTCrowdを導入する。
論文 参考訳(メタデータ) (2022-04-03T08:26:07Z) - Learning Perceptual Locomotion on Uneven Terrains using Sparse Visual
Observations [75.60524561611008]
この研究は、人中心の環境において、よく見られるバンプ、ランプ、階段の広い範囲にわたる知覚的移動を達成するために、スパースな視覚的観察の使用を活用することを目的としている。
まず、関心の均一な面を表すことのできる最小限の視覚入力を定式化し、このような外受容的・固有受容的データを統合した学習フレームワークを提案する。
本研究では, 平地を全方向歩行し, 障害物のある地形を前方移動させるタスクにおいて, 学習方針を検証し, 高い成功率を示す。
論文 参考訳(メタデータ) (2021-09-28T20:25:10Z) - Tracking Pedestrian Heads in Dense Crowd [0.0]
クラウド・オブ・ヘッドス・データセット(CroHD)による頭部追跡の活性化を提案する。
CroHDは11,463フレームの9つのシーケンスで構成され、2,276,838ヘッドと5,230トラックが多様なシーンにアノテートされています。
また,混み合った場面における頭部検出のために設計された頭部検出装置headhunterを提案する。
論文 参考訳(メタデータ) (2021-03-24T22:51:17Z) - LID 2020: The Learning from Imperfect Data Challenge Results [242.86700551532272]
Imperfect Dataワークショップからの学習は、新しいアプローチの開発に刺激を与え、促進することを目的としている。
我々は、弱教師付き学習環境における最先端のアプローチを見つけるために、3つの課題を編成する。
この技術的レポートは、課題のハイライトを要約している。
論文 参考訳(メタデータ) (2020-10-17T13:06:12Z) - Toward Accurate Person-level Action Recognition in Videos of Crowded
Scenes [131.9067467127761]
我々は、シーンの情報を完全に活用し、新しいデータを集めることで、アクション認識を改善することに集中する。
具体的には、各フレームの空間的位置を検出するために、強い人間の検出器を採用する。
そして、行動認識モデルを適用して、HIEデータセットとインターネットから多様なシーンを持つ新しいデータの両方でビデオフレームから時間情報を学ぶ。
論文 参考訳(メタデータ) (2020-10-16T13:08:50Z) - A Flow Base Bi-path Network for Cross-scene Video Crowd Understanding in
Aerial View [93.23947591795897]
本稿では,これらの課題に対処し,ドローンから収集した視覚的データから参加者を自動的に理解する。
クロスシーンテストで発生する背景雑音を軽減するために, 二重ストリーム群カウントモデルを提案する。
極暗環境下での集団密度推定問題に対処するために,ゲームグランドセフトオートV(GTAV)によって生成された合成データを導入する。
論文 参考訳(メタデータ) (2020-09-29T01:48:24Z) - Tracking in Crowd is Challenging: Analyzing Crowd based on Physical
Characteristics [0.0]
異常行動を知的に識別するイベント検出法を開発した。
この問題は、地域によって人口密度が高いため、非常に難しい。
これらの課題に対処する新しい方法を考える。
論文 参考訳(メタデータ) (2020-08-08T22:42:25Z) - MOT20: A benchmark for multi object tracking in crowded scenes [73.92443841487503]
我々は,非常に混み合ったシーンを描写した8つの新しいシーケンスからなるMOT20ベンチマークを提示する。
ベンチマークは第4回BMTT MOT Challenge Workshop at the Computer Vision and Pattern Recognition Conference (CVPR)で初めて発表された。
論文 参考訳(メタデータ) (2020-03-19T20:08:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。