論文の概要: MPPNet: Multi-Frame Feature Intertwining with Proxy Points for 3D
Temporal Object Detection
- arxiv url: http://arxiv.org/abs/2205.05979v1
- Date: Thu, 12 May 2022 09:38:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 13:41:15.488446
- Title: MPPNet: Multi-Frame Feature Intertwining with Proxy Points for 3D
Temporal Object Detection
- Title(参考訳): MPPNet:3次元時間物体検出のためのプロキシポイント付きマルチフレーム機能連携
- Authors: Xuesong Chen, Shaoshuai Shi, Benjin Zhu, Ka Chun Cheung, Hang Xu and
Hongsheng Li
- Abstract要約: 本稿では,ポイントクラウドシーケンスを用いた3次元時間的物体検出のための,MPPNetと呼ばれる柔軟で高性能な3D検出フレームワークを提案する。
マルチフレーム特徴符号化のためのプロキシポイントと,より優れた検出を実現するためのインタラクションを備えた,新しい3階層フレームワークを提案する。
提案手法は,ショート(4フレームなど)およびロング(16フレームなど)のクラウドシーケンスに適用した場合,最先端の手法よりも大きなマージンを持つ。
- 参考スコア(独自算出の注目度): 44.619039588252676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate and reliable 3D detection is vital for many applications including
autonomous driving vehicles and service robots. In this paper, we present a
flexible and high-performance 3D detection framework, named MPPNet, for 3D
temporal object detection with point cloud sequences. We propose a novel
three-hierarchy framework with proxy points for multi-frame feature encoding
and interactions to achieve better detection. The three hierarchies conduct
per-frame feature encoding, short-clip feature fusion, and whole-sequence
feature aggregation, respectively. To enable processing long-sequence point
clouds with reasonable computational resources, intra-group feature mixing and
inter-group feature attention are proposed to form the second and third feature
encoding hierarchies, which are recurrently applied for aggregating multi-frame
trajectory features. The proxy points not only act as consistent object
representations for each frame, but also serve as the courier to facilitate
feature interaction between frames. The experiments on largeWaymo Open dataset
show that our approach outperforms state-of-the-art methods with large margins
when applied to both short (e.g., 4-frame) and long (e.g., 16-frame) point
cloud sequences. Specifically, MPPNet achieves 74.21%, 74.62% and 73.31% for
vehicle, pedestrian and cyclist classes on the LEVEL 2 mAPH metric with
16-frame input.
- Abstract(参考訳): 正確な3D検出は、自動運転車やサービスロボットを含む多くのアプリケーションにとって不可欠である。
本稿では,点雲列を用いた3次元時空間物体検出のためのフレキシブルかつ高性能な3d検出フレームワークmppnetを提案する。
マルチフレーム特徴符号化のためのプロキシポイントと,より優れた検出を実現するためのインタラクションを備えた,新しい3階層フレームワークを提案する。
3つの階層はそれぞれフレーム毎の機能エンコーディング、ショートクリップ機能融合、全シーケンス機能アグリゲーションを行う。
適度な計算資源でロングシーケンス・ポイント・クラウドを処理できるようにするため、グループ内特徴混合とグループ間特徴注意が提案され、複数フレームの軌道特徴の集約に再帰的に適用される第2および第3の特徴符号化階層を形成する。
プロキシポイントは、各フレームの一貫性のあるオブジェクト表現として振る舞うだけでなく、フレーム間のフィーチャの相互作用を促進するクーリエとしても機能する。
largewaymo open datasetにおける実験は、短い(例えば4フレーム)と長い(例えば16フレーム)の雲列の両方に適用した場合、我々のアプローチが最先端の手法を大きなマージンで上回っていることを示している。
具体的には、MPPNetはLEVEL 2 mAPHメートル法で車、歩行者、自転車の計74.21%、74.62%、73.31%を達成した。
関連論文リスト
- A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。
従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。
UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文 参考訳(メタデータ) (2022-03-09T13:35:19Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - PiFeNet: Pillar-Feature Network for Real-Time 3D Pedestrian Detection
from Point Cloud [64.12626752721766]
点雲からの歩行者検出に有効なリアルタイム3D検出器であるPiFeNetを提案する。
歩行者を検知する際の3次元物体検出フレームワークが直面する課題として, 柱の特徴の少ない点と, 点群における歩行者の占有面積の小さい点があげられる。
提案手法は,26fps/秒(FPS)で走行しながら,KITTI歩行者BEVと3Dリーダーボードで第1位にランクされ,Nuscenes検出ベンチマークの最先端性能を実現している。
論文 参考訳(メタデータ) (2021-12-31T13:41:37Z) - Background-Aware 3D Point Cloud Segmentationwith Dynamic Point Feature
Aggregation [12.093182949686781]
DPFA-Net(Dynamic Point Feature Aggregation Network)と呼ばれる新しい3Dポイント・クラウド・ラーニング・ネットワークを提案する。
DPFA-Netにはセマンティックセグメンテーションと3Dポイントクラウドの分類のための2つのバリエーションがある。
S3DISデータセットのセマンティックセグメンテーションのための、最先端の全体的な精度スコアを達成する。
論文 参考訳(メタデータ) (2021-11-14T05:46:05Z) - 3D Object Detection Combining Semantic and Geometric Features from Point
Clouds [19.127930862527666]
そこで本研究では,SGNetと呼ばれる2次元物体検出装置を提案する。
VTPMはVoxel-Point-Based Moduleであり、最終的に点空間で3Dオブジェクト検出を実装している。
2021年9月19日時点で、KITTIデータセットでは、SGNetは、難易度の高いサイクリストの3DおよびBEV検出で1位、適度なサイクリストの3D検出では2位であった。
論文 参考訳(メタデータ) (2021-10-10T04:43:27Z) - Encoder-decoder with Multi-level Attention for 3D Human Shape and Pose
Estimation [61.98690211671168]
本稿では,マルチレベルアテンション・デコーダ・ネットワーク(MAED)を提案する。
3DPWのトレーニングセットにより、MAEDはPA-MPJPEの6.2、7.2、2.4mmの従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-09-06T09:06:17Z) - M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object
Detection with Transformers [78.48081972698888]
M3DeTRは、マルチスケールのフィーチャーピラミッドに基づいて、異なるポイントクラウド表現と異なる機能スケールを組み合わせたものです。
M3DeTRは、複数のポイントクラウド表現、機能スケール、およびトランスを使用してポイントクラウド間の相互関係を同時にモデル化する最初のアプローチです。
論文 参考訳(メタデータ) (2021-04-24T06:48:23Z) - 3D-MAN: 3D Multi-frame Attention Network for Object Detection [22.291051951077485]
3D-MANは、複数の視点から効果的に機能を集約する3Dマルチフレームアテンションネットワークです。
3D-MANは, 単フレームおよび複数フレームの手法と比較して, 最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-30T03:44:22Z) - Anchor-Based Spatial-Temporal Attention Convolutional Networks for
Dynamic 3D Point Cloud Sequences [20.697745449159097]
動的3次元点雲列を処理するために,アンカー型時空間注意畳み込み演算(astaconv)を提案する。
提案する畳み込み操作は、各点の周囲に複数の仮想アンカーを設定することにより、各点の周囲にレギュラーレセプティブフィールドを構築する。
提案手法は,局所領域内の構造化情報をよりよく活用し,動的3次元点雲列から空間-時間埋め込み特徴を学習する。
論文 参考訳(メタデータ) (2020-12-20T07:35:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。