論文の概要: Attention-Aware Multi-View Pedestrian Tracking
- arxiv url: http://arxiv.org/abs/2504.03047v1
- Date: Thu, 03 Apr 2025 21:53:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:48:25.120997
- Title: Attention-Aware Multi-View Pedestrian Tracking
- Title(参考訳): 注意型多視点歩行者追跡
- Authors: Reef Alturki, Adrian Hilton, Jean-Yves Guillemaut,
- Abstract要約: 最近の多視点歩行者検出モデルは、早期統合戦略の可能性を強調している。
この戦略は、検出と追跡の両方のパフォーマンスを改善することが示されている。
本稿では,多視点歩行者追跡シナリオに注意機構を組み込んだ新しいモデルを提案する。
- 参考スコア(独自算出の注目度): 21.393389135740712
- License:
- Abstract: In spite of the recent advancements in multi-object tracking, occlusion poses a significant challenge. Multi-camera setups have been used to address this challenge by providing a comprehensive coverage of the scene. Recent multi-view pedestrian detection models have highlighted the potential of an early-fusion strategy, projecting feature maps of all views to a common ground plane or the Bird's Eye View (BEV), and then performing detection. This strategy has been shown to improve both detection and tracking performance. However, the perspective transformation results in significant distortion on the ground plane, affecting the robustness of the appearance features of the pedestrians. To tackle this limitation, we propose a novel model that incorporates attention mechanisms in a multi-view pedestrian tracking scenario. Our model utilizes an early-fusion strategy for detection, and a cross-attention mechanism to establish robust associations between pedestrians in different frames, while efficiently propagating pedestrian features across frames, resulting in a more robust feature representation for each pedestrian. Extensive experiments demonstrate that our model outperforms state-of-the-art models, with an IDF1 score of $96.1\%$ on Wildtrack dataset, and $85.7\%$ on MultiviewX dataset.
- Abstract(参考訳): 近年の多目的追跡の進歩にもかかわらず、オクルージョンは重要な課題である。
マルチカメラのセットアップは、シーンの包括的カバレッジを提供することによって、この問題に対処するために使用されている。
最近の多視点歩行者検出モデルでは、早期統合戦略の可能性を強調し、すべてのビューの特徴マップを共通の地上面やBEV(Bird's Eye View)に投影し、次に検出を実行する。
この戦略は、検出と追跡の両方のパフォーマンスを改善することが示されている。
しかし, 視線変化は地上面に顕著な歪みをもたらし, 歩行者の外観特性の堅牢性に影響を及ぼす。
この制限に対処するため,多視点歩行者追跡シナリオに注意機構を組み込んだ新しいモデルを提案する。
本モデルでは,早期発見戦略と横断的注意機構を用いて,異なるフレームの歩行者間のロバストな関連性を確立するとともに,フレーム間の歩行者特徴を効果的に伝播させ,歩行者毎によりロバストな特徴表現を実現する。
IDF1スコアはWildtrackデータセットで96.1\%、MultiviewXデータセットで85.7\%である。
関連論文リスト
- MVUDA: Unsupervised Domain Adaptation for Multi-view Pedestrian Detection [4.506083131558207]
我々は、ラベル付きデータをテストで使用するものと異なるマルチカメラ設定を用いて収集する環境で、多視点歩行者検出に対処する。
ラベル付きデータを追加することなく新しいリグにモデルを適応させる,教師なしドメイン適応(UDA)手法を提案する。
論文 参考訳(メタデータ) (2024-12-05T12:36:12Z) - DVPE: Divided View Position Embedding for Multi-View 3D Object Detection [7.791229698270439]
現在の研究は、受容場間のバランスと、多視点の特徴を集約する際の干渉を減らすことの課題に直面している。
本稿では,視覚的クロスアテンション機構を通じて特徴を世界規模でモデル化する分割ビュー手法を提案する。
我々のフレームワークはDVPEと呼ばれ、nuScenesテストセット上で最先端のパフォーマンス(57.2% mAPと64.5% NDS)を達成する。
論文 参考訳(メタデータ) (2024-07-24T02:44:41Z) - Freeview Sketching: View-Aware Fine-Grained Sketch-Based Image Retrieval [85.73149096516543]
微細スケッチベース画像検索(FG-SBIR)におけるスケッチ作成時の視点選択について検討する。
パイロットスタディでは、クエリスケッチがターゲットインスタンスと異なる場合、システムの苦労を強調している。
これを解決するために、ビューに依存しないタスクとビュー固有のタスクの両方をシームレスに収容するビューアウェアシステムを提案する。
論文 参考訳(メタデータ) (2024-07-01T21:20:44Z) - Lifting Multi-View Detection and Tracking to the Bird's Eye View [5.679775668038154]
マルチビュー検出と3Dオブジェクト認識の最近の進歩により、性能が大幅に向上した。
パラメータフリーとパラメータ化の両方の現代的なリフト法とマルチビューアグリゲーションを比較した。
堅牢な検出を学習するために,複数のステップの特徴を集約するアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-19T09:33:07Z) - Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。
提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-11-17T08:17:49Z) - EarlyBird: Early-Fusion for Multi-View Tracking in the Bird's Eye View [6.093524345727119]
本研究では,バードアイビューの早期融合により,検出と追跡の両面で高い精度が得られることを示す。
EarlyBirdは最先端の手法より優れており、現在のWildtrackの状態を+4.6 MOTAと+5.6 IDF1で改善している。
論文 参考訳(メタデータ) (2023-10-20T08:27:21Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - DIVOTrack: A Novel Dataset and Baseline Method for Cross-View
Multi-Object Tracking in DIVerse Open Scenes [74.64897845999677]
歩行者が密集したDIVerse Openのシーンを対象とした,新しいクロスビュー多目的追跡データセットを提案する。
私たちのDIVOTrackには15の異なるシナリオと953のクロスビュートラックがあります。
さらに,クロスモット(CrossMOT)という統合型共同検出・クロスビュートラッキングフレームワークを用いた新しいベースラインクロスビュートラッキング手法を提案する。
論文 参考訳(メタデータ) (2023-02-15T14:10:42Z) - Multi-Camera Multi-Object Tracking on the Move via Single-Stage Global
Association Approach [23.960847268459293]
この研究は、複数カメラから1つ以上の検出を追跡対象に関連付けるための、新しいシングルステージグローバルアソシエーション追跡手法を導入する。
また,本モデルでは,nuScenes検出課題において,標準的な視覚に基づく3次元物体検出器の検出精度も向上した。
論文 参考訳(メタデータ) (2022-11-17T17:03:24Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。