論文の概要: SynMVCrowd: A Large Synthetic Benchmark for Multi-view Crowd Counting and Localization
- arxiv url: http://arxiv.org/abs/2603.23956v1
- Date: Wed, 25 Mar 2026 05:34:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.146096
- Title: SynMVCrowd: A Large Synthetic Benchmark for Multi-view Crowd Counting and Localization
- Title(参考訳): SynMVCrowd: マルチビューのクラウドカウントとローカライゼーションのための大規模なシンセティックベンチマーク
- Authors: Qi Zhang, Daijie Chen, Yunfei Gong, Hui Huang,
- Abstract要約: 群衆数, カメラビュー, フレームを限定した比較的小さなシーンにおいて, 既存の複数視点の群集カウントと位置決め手法を評価した。
マルチビュー・クラウド・カウントとローカライズ・タスクのより実践的な評価と比較を行うため,大規模な総合ベンチマークであるSynMVCrowdを提案する。
- 参考スコア(独自算出の注目度): 13.590728974745787
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Existing multi-view crowd counting and localization methods are evaluated under relatively small scenes with limited crowd numbers, camera views, and frames. This makes the evaluation and comparison of existing methods impractical, as small datasets are easily overfit by these methods. To avoid these issues, 3DROM proposes a data augmentation method. Instead, in this paper, we propose a large synthetic benchmark, SynMVCrowd, for more practical evaluation and comparison of multi-view crowd counting and localization tasks. The SynMVCrowd benchmark consists of 50 synthetic scenes with a large number of multi-view frames and camera views and a much larger crowd number (up to 1000), which is more suitable for large-scene multi-view crowd vision tasks. Besides, we propose strong multi-view crowd localization and counting baselines that outperform all comparison methods on the new SynMVCrowd benchmark. Moreover, we prove that better domain transferring multi-view and single-image counting performance could be achieved with the aid of the benchmark on novel new real scenes. As a result, the proposed benchmark could advance the research for multi-view and single-image crowd counting and localization to more practical applications. The codes and datasets are here: https://github.com/zqyq/SynMVCrowd.
- Abstract(参考訳): 群衆数, カメラビュー, フレームを限定した比較的小さなシーンにおいて, 既存の複数視点の群集カウントと位置決め手法を評価した。
これにより、これらの手法によって小さなデータセットが容易に過度に適合するため、既存の手法の評価と比較は現実的ではない。
これらの問題を避けるため、3DROMはデータ拡張法を提案する。
そこで,本稿では,マルチビュー・クラウド・カウントとローカライズ・タスクのより実践的な評価と比較を行うため,大規模な総合ベンチマークであるSynMVCrowdを提案する。
SynMVCrowdベンチマークは、多数のマルチビューフレームとカメラビューを備えた50の合成シーンと、大規模なマルチビューの群衆ビジョンタスクに適したより大きな群衆数(最大1000まで)で構成されている。
さらに,新しいSynMVCrowdベンチマークにおいて,全ての比較手法を上回る,強力なマルチビュー・クラウド・ローカライゼーションとベースライン数を提案する。
さらに,新しいシーンのベンチマークによって,マルチビューとシングルイメージカウントのパフォーマンスが向上できることを実証した。
その結果、提案したベンチマークにより、より実用的なアプリケーションへのマルチビューと単一イメージの群衆カウントとローカライゼーションの研究が進展する可能性がある。
コードとデータセットは以下の通りである。
関連論文リスト
- Multimodal Referring Segmentation: A Survey [93.24051010753817]
マルチモーダル参照セグメンテーション(Multimodal reference segmentation)は、テキストやオーディオフォーマットでの参照表現に基づいて、画像、ビデオ、および3Dシーンなどのターゲットオブジェクトを視覚シーンに分割することを目的としている。
過去10年間で、畳み込みニューラルネットワーク、トランスフォーマー、および大規模言語モデルの進歩によって、マルチモーダルコミュニティにおいて大きな注目を集めてきた。
論文 参考訳(メタデータ) (2025-08-01T02:14:00Z) - Multi-View People Detection in Large Scenes via Supervised View-Wise Contribution Weighting [44.48514301889318]
本稿では、教師付きビューワイドコントリビューション重み付け手法の開発により、多視点人物検出の改善に焦点をあてる。
モデルの一般化能力を高めるために、大規模な合成データセットが採用されている。
実験により,提案手法が有望な多面的人物検出性能の実現に有効であることを実証した。
論文 参考訳(メタデータ) (2024-05-30T11:03:27Z) - Replay: Multi-modal Multi-view Acted Videos for Casual Holography [76.49914880351167]
Replayは、社会的に対話する人間のマルチビュー、マルチモーダルビデオのコレクションである。
全体として、データセットには4000分以上の映像と700万のタイムスタンプ付き高解像度フレームが含まれている。
Replayデータセットには、新規ビュー合成、3D再構成、新規ビュー音響合成、人体と顔の分析、生成モデルの訓練など、多くの潜在的な応用がある。
論文 参考訳(メタデータ) (2023-07-22T12:24:07Z) - OmniCity: Omnipotent City Understanding with Multi-level and Multi-view
Images [72.4144257192959]
本稿では,マルチレベル・マルチビュー画像から全能都市理解のための新しいデータセットであるOmniCityを提案する。
データセットには100万画素以上の注釈付き画像が含まれており、ニューヨーク市の25万画素のジオロケーションから順に収集されている。
新たなOmniCityデータセットでは,フットプリント抽出や高さ推定,平面/インスタンス/きめ細かなセグメンテーションなど,さまざまなタスクのベンチマークが提供されている。
論文 参考訳(メタデータ) (2022-08-01T15:19:25Z) - Cross-View Cross-Scene Multi-View Crowd Counting [56.83882084112913]
従来,複数カメラを用いて1台のカメラの視野を拡大する手法が提案されてきた。
任意のカメラレイアウトで異なるシーンでトレーニングやテストを行う,クロスビュー・クロスシーン(CVCS)のマルチビュー・クラウドカウント・パラダイムを提案する。
論文 参考訳(メタデータ) (2022-05-03T15:03:44Z) - Wide-Area Crowd Counting: Multi-View Fusion Networks for Counting in
Large Scenes [50.744452135300115]
マルチビュー・クラウドカウントのためのディープニューラルネットワークフレームワークを提案する。
提案手法は,他のマルチビューカウントベースラインと比較して,最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-12-02T03:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。