論文の概要: Multiview Detection with Feature Perspective Transformation
- arxiv url: http://arxiv.org/abs/2007.07247v2
- Date: Sat, 1 May 2021 11:15:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 14:07:06.659514
- Title: Multiview Detection with Feature Perspective Transformation
- Title(参考訳): 特徴パースペクティブ変換によるマルチビュー検出
- Authors: Yunzhong Hou, Liang Zheng, Stephen Gould
- Abstract要約: 本稿では,新しいマルチビュー検出システムMVDetを提案する。
我々は,平面上に特徴写像を投影することで,多視点情報を集約するアンカーフリーアプローチを採っている。
私たちのモデル全体がエンドツーエンドで学習可能で、標準のWildtrackデータセットで88.2%のMODAを実現しています。
- 参考スコア(独自算出の注目度): 59.34619548026885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incorporating multiple camera views for detection alleviates the impact of
occlusions in crowded scenes. In a multiview system, we need to answer two
important questions when dealing with ambiguities that arise from occlusions.
First, how should we aggregate cues from the multiple views? Second, how should
we aggregate unreliable 2D and 3D spatial information that has been tainted by
occlusions? To address these questions, we propose a novel multiview detection
system, MVDet. For multiview aggregation, existing methods combine anchor box
features from the image plane, which potentially limits performance due to
inaccurate anchor box shapes and sizes. In contrast, we take an anchor-free
approach to aggregate multiview information by projecting feature maps onto the
ground plane (bird's eye view). To resolve any remaining spatial ambiguity, we
apply large kernel convolutions on the ground plane feature map and infer
locations from detection peaks. Our entire model is end-to-end learnable and
achieves 88.2% MODA on the standard Wildtrack dataset, outperforming the
state-of-the-art by 14.1%. We also provide detailed analysis of MVDet on a
newly introduced synthetic dataset, MultiviewX, which allows us to control the
level of occlusion. Code and MultiviewX dataset are available at
https://github.com/hou-yz/MVDet.
- Abstract(参考訳): 検出のために複数のカメラビューを組み込むことで、混雑したシーンにおける閉塞の影響が軽減される。
マルチビューシステムでは,咬合から生じる曖昧さを扱う場合,2つの重要な質問に答える必要がある。
まず、複数のビューからヒントを集約するにはどうすればよいか?
第二に、咬合により汚染された2次元および3次元の空間情報をどのように集約するか。
そこで本研究では,新しいマルチビュー検出システムMVDetを提案する。
マルチビューアグリゲーションでは、既存の手法がイメージプレーンのアンカーボックス機能を組み合わせることで、アンカーボックスの形状やサイズが不正確なため、パフォーマンスが制限される可能性がある。
対照的に,機能マップを地上面(バードアイビュー)に投影することにより,マルチビュー情報を集約するアンカーフリーなアプローチを採用している。
残余空間的曖昧性を解決するため、地上平面特徴写像に大きなカーネル畳み込みを適用し、検出ピークから位置を推定する。
私たちのモデル全体がエンドツーエンドで学習可能で、標準wildtrackデータセットで88.2%のmodaを達成しています。
また,新たに導入された合成データセットであるMultiviewX上でのMVDetの詳細な解析を行い,オクルージョンのレベルを制御する。
CodeとMultiviewXデータセットはhttps://github.com/hou-yz/MVDet.comで入手できる。
関連論文リスト
- Lifting Multi-View Detection and Tracking to the Bird's Eye View [5.679775668038154]
マルチビュー検出と3Dオブジェクト認識の最近の進歩により、性能が大幅に向上した。
パラメータフリーとパラメータ化の両方の現代的なリフト法とマルチビューアグリゲーションを比較した。
堅牢な検出を学習するために,複数のステップの特徴を集約するアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-19T09:33:07Z) - PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - MMRDN: Consistent Representation for Multi-View Manipulation
Relationship Detection in Object-Stacked Scenes [62.20046129613934]
我々は,MMRDN(Multi-view MRD Network)と呼ばれる新しい多視点融合フレームワークを提案する。
異なるビューからの2Dデータを共通の隠れ空間に投影し、埋め込みをVon-Mises-Fisher分布に適合させる。
これら2つのオブジェクトの相対位置を符号化した各オブジェクト対の点雲から、K$最大垂直近傍点(KMVN)の集合を選択する。
論文 参考訳(メタデータ) (2023-04-25T05:55:29Z) - 3M3D: Multi-view, Multi-path, Multi-representation for 3D Object
Detection [0.5156484100374059]
本稿では,3次元物体検出のためのマルチビュー,マルチパス,マルチ表現3M3Dを提案する。
我々は、パノラマビューと粗いグローバルビューの両方において、シーンの表現を強化するために、マルチビュー機能とクエリ機能の両方を更新する。
ベースライン上でnuScenesベンチマークデータセットのパフォーマンス改善を示す。
論文 参考訳(メタデータ) (2023-02-16T11:28:30Z) - DIVOTrack: A Novel Dataset and Baseline Method for Cross-View
Multi-Object Tracking in DIVerse Open Scenes [74.64897845999677]
歩行者が密集したDIVerse Openのシーンを対象とした,新しいクロスビュー多目的追跡データセットを提案する。
私たちのDIVOTrackには15の異なるシナリオと953のクロスビュートラックがあります。
さらに,クロスモット(CrossMOT)という統合型共同検出・クロスビュートラッキングフレームワークを用いた新しいベースラインクロスビュートラッキング手法を提案する。
論文 参考訳(メタデータ) (2023-02-15T14:10:42Z) - MFFN: Multi-view Feature Fusion Network for Camouflaged Object Detection [10.04773536815808]
画像中の不明瞭な物体を見つける人間の振る舞いを模倣する,Multi-view Feature Fusion Network (MFFN) と呼ばれる行動に触発されたフレームワークを提案する。
MFFNは抽出したマルチビュー特徴を比較し、融合することにより、重要なエッジとセマンティック情報をキャプチャする。
提案手法は,同一データを用いたトレーニングにより,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2022-10-12T16:12:58Z) - Voxelized 3D Feature Aggregation for Multiview Detection [15.465855460519446]
VFA, Voxelized 3D feature aggregate, for feature transformation and aggregate in multi-view detection。
具体的には、3D空間をボクセル化し、それぞれのカメラビューにボクセルを投影し、2D機能とこれらプロジェクションされたボクセルを関連付ける。
これにより、同じ垂直線に沿って2次元特徴を識別して集約し、プロジェクション歪みを広範囲に緩和することができる。
論文 参考訳(メタデータ) (2021-12-07T03:38:50Z) - Multiview Detection with Shadow Transformer (and View-Coherent Data
Augmentation) [25.598840284457548]
本稿では,マルチビュー情報を集約するシャドートランスを用いた新しいマルチビュー検出器MVDeTrを提案する。
畳み込みとは異なり、シャドートランスフォーマーは様々な位置やカメラで様々な影のような歪みに対処する。
本報告では,提案方式による最新の精度について報告する。
論文 参考訳(メタデータ) (2021-08-12T17:59:02Z) - Wide-Area Crowd Counting: Multi-View Fusion Networks for Counting in
Large Scenes [50.744452135300115]
マルチビュー・クラウドカウントのためのディープニューラルネットワークフレームワークを提案する。
提案手法は,他のマルチビューカウントベースラインと比較して,最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-12-02T03:20:30Z) - MVLidarNet: Real-Time Multi-Class Scene Understanding for Autonomous
Driving Using Multiple Views [60.538802124885414]
マルチビューLidarNet(MVLidarNet)は,多層物体検出とドライビング空間分割のための2段階のディープニューラルネットワークである。
MVLidarNetは、単一のLiDARスキャンを入力として、乾燥可能な空間を同時に決定しながら、オブジェクトを検出し、分類することができる。
我々は、KITTIとはるかに大きな内部データセットの両方で結果を示し、その方法が桁違いにスケールできることを実証する。
論文 参考訳(メタデータ) (2020-06-09T21:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。