論文の概要: MSMVD: Exploiting Multi-scale Image Features via Multi-scale BEV Features for Multi-view Pedestrian Detection
- arxiv url: http://arxiv.org/abs/2508.20447v1
- Date: Thu, 28 Aug 2025 05:52:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.053828
- Title: MSMVD: Exploiting Multi-scale Image Features via Multi-scale BEV Features for Multi-view Pedestrian Detection
- Title(参考訳): MSMVD:マルチビュー歩行者検出のためのマルチスケールBEV機能によるマルチスケール画像特徴の爆発
- Authors: Taiga Yamane, Satoshi Suzuki, Ryo Masumura, Shota Orihashi, Tomohiro Tanaka, Mana Ihori, Naoki Makishima, Naotaka Kawata,
- Abstract要約: 多視点歩行者検出(Multi-View Pedestrian Detection、MVPD)は、多視点画像から鳥の目視(BEV)の形をした歩行者を検出することを目的としている。
マルチスケールマルチビュー検出(MSMVD)と呼ばれる新しいMVPD法を提案する。
MSMVDは、個々のビューから抽出したマルチスケール画像特徴をBEV空間に投影することにより、マルチスケールのBEV特徴を生成する。
- 参考スコア(独自算出の注目度): 28.835430420645196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-View Pedestrian Detection (MVPD) aims to detect pedestrians in the form of a bird's eye view (BEV) from multi-view images. In MVPD, end-to-end trainable deep learning methods have progressed greatly. However, they often struggle to detect pedestrians with consistently small or large scales in views or with vastly different scales between views. This is because they do not exploit multi-scale image features to generate the BEV feature and detect pedestrians. To overcome this problem, we propose a novel MVPD method, called Multi-Scale Multi-View Detection (MSMVD). MSMVD generates multi-scale BEV features by projecting multi-scale image features extracted from individual views into the BEV space, scale-by-scale. Each of these BEV features inherits the properties of its corresponding scale image features from multiple views. Therefore, these BEV features help the precise detection of pedestrians with consistently small or large scales in views. Then, MSMVD combines information at different scales of multiple views by processing the multi-scale BEV features using a feature pyramid network. This improves the detection of pedestrians with vastly different scales between views. Extensive experiments demonstrate that exploiting multi-scale image features via multi-scale BEV features greatly improves the detection performance, and MSMVD outperforms the previous highest MODA by $4.5$ points on the GMVD dataset.
- Abstract(参考訳): 多視点歩行者検出(Multi-View Pedestrian Detection、MVPD)は、多視点画像から鳥の目視(BEV)の形をした歩行者を検出することを目的としている。
MVPDでは、エンドツーエンドのトレーニング可能なディープラーニング手法が大幅に進歩している。
しかし、視界の小さい、あるいは大きなスケールの歩行者や、視界の異なるスケールの歩行者を検知するのに苦労することが多い。
これは、BEV機能を生成し、歩行者を検出するために、マルチスケールのイメージ機能を利用していないためである。
そこで本研究では,マルチスケールマルチビュー検出(Multi-Scale Multi-View Detection, MMVD)と呼ばれる新しいMVPD手法を提案する。
MSMVDは、個別のビューから抽出したマルチスケールの画像特徴をスケール・バイ・スケールのBEV空間に投影することにより、マルチスケールのBEV特徴を生成する。
これらのBEV機能はそれぞれ、対応するスケール画像の特徴を複数のビューから継承する。
したがって、これらのBEV機能は、常に小さな、あるいは大規模な視界を持つ歩行者を正確に検出するのに役立つ。
次に、MSMVDは、特徴ピラミッドネットワークを用いてマルチスケールのBEV機能を処理し、複数のビューの異なるスケールの情報を組み合わせる。
これにより、ビュー間で大きく異なるスケールの歩行者の検出が向上する。
大規模な実験では、マルチスケールのBEV機能によるマルチスケール画像機能の利用により検出性能が大幅に向上し、MSMVDはGMVDデータセットの4.5ドルポイントで前の最高値のMODAを上回った。
関連論文リスト
- MamBEV: Enabling State Space Models to Learn Birds-Eye-View Representations [6.688344169640982]
我々は,Bird's Eye Viewの統一表現を学習するMamBEVというMambaベースのフレームワークを提案する。
MamBEVは、計算とメモリ効率を大幅に改善した複数の3D知覚タスクをサポートする。
MamBEVの有望なパフォーマンスを様々な視覚的知覚メトリクスで実証する実験である。
論文 参考訳(メタデータ) (2025-03-18T03:18:45Z) - FB-BEV: BEV Representation from Forward-Backward View Transformations [131.11787050205697]
本稿では,Bird-Eye-View (BEV) 表現のためのビュートランスフォーメーションモジュール (VTM) を提案する。
我々は提案したモジュールをFB-BEVでインスタンス化し、nuScenesテストセット上で62.4%のNDSの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-08-04T10:26:55Z) - BEVControl: Accurately Controlling Street-view Elements with
Multi-perspective Consistency via BEV Sketch Layout [17.389444754562252]
本稿では,BEVControlと呼ばれる2段階生成手法を提案する。
我々のBEVControlは最先端の手法であるBEVGenをはるかに上回っている。
論文 参考訳(メタデータ) (2023-08-03T09:56:31Z) - SA-BEV: Generating Semantic-Aware Bird's-Eye-View Feature for Multi-view
3D Object Detection [46.92706423094971]
画像特徴のセマンティックセグメンテーションに応じて背景情報をフィルタリングするセマンティック・アウェア・BEVプール(SA-BEVPool)を提案する。
また、セマンティック・アウェアのBEV機能と密接にマッチする効果的なデータ拡張戦略であるBEV-Pasteを提案する。
nuScenesの実験では、SA-BEVが最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2023-07-21T10:28:19Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - BEV-Locator: An End-to-end Visual Semantic Localization Network Using
Multi-View Images [13.258689143949912]
マルチビューカメラ画像を用いたエンドツーエンドの視覚的セマンティックローカライゼーションニューラルネットワークを提案する。
BEV-Locatorは、多目的シナリオ下での車両のポーズを推定することができる。
実験では, 平均絶対誤差が0.052m, 0.135m, 0.251$circ$, 横方向, 縦方向の翻訳, 方向角の程度で満足な精度を報告した。
論文 参考訳(メタデータ) (2022-11-27T20:24:56Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。