論文の概要: Mahalanobis Distance-based Multi-view Optimal Transport for Multi-view Crowd Localization
- arxiv url: http://arxiv.org/abs/2409.01726v1
- Date: Tue, 3 Sep 2024 09:10:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 02:16:32.317398
- Title: Mahalanobis Distance-based Multi-view Optimal Transport for Multi-view Crowd Localization
- Title(参考訳): マハラノビス距離を用いた多視点移動による多視点集団位置推定
- Authors: Qi Zhang, Kaiyi Zhang, Antoni B. Chan, Hui Huang,
- Abstract要約: マハラノビス距離に基づく新しい多視点移動損失を提案する。
実験では, 密度マップ, ユークリッド距離に基づく最適輸送損失に対して, 提案手法の利点を実証した。
- 参考スコア(独自算出の注目度): 50.69184586442379
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-view crowd localization predicts the ground locations of all people in the scene. Typical methods usually estimate the crowd density maps on the ground plane first, and then obtain the crowd locations. However, the performance of existing methods is limited by the ambiguity of the density maps in crowded areas, where local peaks can be smoothed away. To mitigate the weakness of density map supervision, optimal transport-based point supervision methods have been proposed in the single-image crowd localization tasks, but have not been explored for multi-view crowd localization yet. Thus, in this paper, we propose a novel Mahalanobis distance-based multi-view optimal transport (M-MVOT) loss specifically designed for multi-view crowd localization. First, we replace the Euclidean-based transport cost with the Mahalanobis distance, which defines elliptical iso-contours in the cost function whose long-axis and short-axis directions are guided by the view ray direction. Second, the object-to-camera distance in each view is used to adjust the optimal transport cost of each location further, where the wrong predictions far away from the camera are more heavily penalized. Finally, we propose a strategy to consider all the input camera views in the model loss (M-MVOT) by computing the optimal transport cost for each ground-truth point based on its closest camera. Experiments demonstrate the advantage of the proposed method over density map-based or common Euclidean distance-based optimal transport loss on several multi-view crowd localization datasets. Project page: https://vcc.tech/research/2024/MVOT.
- Abstract(参考訳): マルチビューの観客定位は、現場のすべての人々の地上位置を予測する。
典型的な方法では、まず地上平面上の群集密度マップを推定し、次に群集の位置を求める。
しかし, 既存手法の性能は, 人口密度マップの曖昧さによって制限され, 局所的なピークを滑らかにすることができる。
密度マップ監視の弱点を軽減するため, 単一イメージの群集局所化タスクにおいて, 最適輸送に基づく点監督手法が提案されているが, マルチビューの群集局所化については未だ検討されていない。
そこで本稿では,M-MVOT(Mahalanobis distance-based multi-view optimal transport)を新たに提案する。
まず、長軸方向と短軸方向が視線方向で導かれるコスト関数の楕円形等方形を定義するマハラノビス距離をユークリッドベース輸送コストに置き換える。
第二に、各ビューにおけるオブジェクト・カメラ間距離は、カメラから遠く離れた誤った予測がより過度に罰せられるように、各ロケーションの最適な輸送コストを更に調整するために使用される。
最後に, モデル損失(M-MVOT)における全ての入力カメラビューを, 最寄りのカメラに基づいて, 接地点毎の最適な輸送コストを計算して検討する戦略を提案する。
複数視点の群集局所化データセット上で, 密度マップに基づく, あるいはユークリッド距離に基づく最適輸送損失よりも, 提案手法の利点を実証する実験を行った。
プロジェクトページ:https://vcc.tech/research/2024/MVOT。
関連論文リスト
- Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - Multiview Detection with Cardboard Human Modeling [23.072791405965415]
本研究では,人点雲モデリングに基づく新しい歩行者表現方式を提案する。
具体的には、人体深度推定のためのレイトレーシングを用いて、歩行者を地上の直立した薄い段ボールの点雲としてモデル化する。
論文 参考訳(メタデータ) (2022-07-05T12:47:26Z) - Beyond Cross-view Image Retrieval: Highly Accurate Vehicle Localization
Using Satellite Image [91.29546868637911]
本稿では,地上画像と架空衛星地図とをマッチングすることにより,車載カメラのローカライゼーションの問題に対処する。
鍵となる考え方は、タスクをポーズ推定として定式化し、ニューラルネットベースの最適化によってそれを解くことである。
標準自動運転車のローカライゼーションデータセットの実験により,提案手法の優位性が確認された。
論文 参考訳(メタデータ) (2022-04-10T19:16:58Z) - LDC-Net: A Unified Framework for Localization, Detection and Counting in
Dense Crowds [103.8635206945196]
視覚的群集分析の急速な発展は、単に密度マップを要約するのではなく、位置決めや検出によって人を数える傾向を示している。
群集の局所化と検出に関する最近の研究には,1) 群集を扱えない典型的な検出法と,大規模に変化する群集を扱えないこと,2) 密度マップ法は,特に高密度群集や大規模群集において,位置とボックスの予測における性能不足に悩まされていること,の2つの制限がある。
論文 参考訳(メタデータ) (2021-10-10T07:55:44Z) - Cascaded Residual Density Network for Crowd Counting [63.714719914701014]
本研究では, 群衆数に対する高品質な密度マップを高精度に作成するために, 粗大なアプローチで新しいカスケード残差密度ネットワーク(CRDNet)を提案する。
新たな局所的カウント損失が示され、群衆カウントの精度が向上する。
論文 参考訳(メタデータ) (2021-07-29T03:07:11Z) - Coarse-to-fine Semantic Localization with HD Map for Autonomous Driving
in Structural Scenes [1.1024591739346292]
カメラを主センサとする自動運転のためのHDマップを用いたコスト効率の高い車両位置決めシステムを提案する。
視覚的セマンティクスをHDマップのランドマークにマップするデータアソシエーション問題として視覚に基づくローカライゼーションを定式化する。
本手法を2つのデータセット上で評価し,提案手法が異なる運転シナリオにおいて有望なローカライゼーション結果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-07-06T11:58:55Z) - Tracking-by-Counting: Using Network Flows on Crowd Density Maps for
Tracking Multiple Targets [96.98888948518815]
State-of-the-art multi-object tracking(MOT)法は、トラッキング・バイ・検出のパラダイムに従っている。
混み合ったシーンに適したMOTパラダイムであるトラッキング・バイ・カウントを提案する。
論文 参考訳(メタデータ) (2020-07-18T19:51:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。