論文の概要: MT-Net Submission to the Waymo 3D Detection Leaderboard
- arxiv url: http://arxiv.org/abs/2207.04781v1
- Date: Mon, 11 Jul 2022 11:32:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 14:52:04.925241
- Title: MT-Net Submission to the Waymo 3D Detection Leaderboard
- Title(参考訳): Waymo 3D検出リーダーボードへのMT-Net送信
- Authors: Shaoxiang Chen, Zequn Jie, Xiaolin Wei, Lin Ma
- Abstract要約: 様々な大きさの物体を検出するために,マルチスケール機能を利用する2次元バックボーンを設計する。
また、さらなる改善のためにテスト時間拡張とモデルアンサンブルを適用します。
現在、我々の提出物は3D検出リーダーボードで78.45 mAPHで4位である。
- 参考スコア(独自算出の注目度): 38.43708386431437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this technical report, we introduce our submission to the Waymo 3D
Detection leaderboard. Our network is based on the Centerpoint architecture,
but with significant improvements. We design a 2D backbone to utilize
multi-scale features for better detecting objects with various sizes, together
with an optimal transport-based target assignment strategy, which dynamically
assigns richer supervision signals to the detection candidates. We also apply
test-time augmentation and model-ensemble for further improvements. Our
submission currently ranks 4th place with 78.45 mAPH on the Waymo 3D Detection
leaderboard.
- Abstract(参考訳): 本技術報告では、Waymo 3D Detectionのリーダーボードについて紹介する。
私たちのネットワークはCenterpointアーキテクチャに基づいているが、大幅に改善されている。
我々は,多次元バックボーンを設計し,様々な大きさの物体をよりよく検出すると共に,よりリッチな監視信号を検出候補に動的に割り当てる最適なトランスポートベースターゲット割り当て戦略を提案する。
さらなる改善のために、テスト時間拡張とモデルセンスも適用します。
現在、waymo 3d detection leaderboardの78.45 maphで4位にランクインしています。
関連論文リスト
- What Matters in Range View 3D Object Detection [15.147558647138629]
ライダーベースの知覚パイプラインは複雑なシーンを解釈するために3Dオブジェクト検出モデルに依存している。
過去のレンジビュー文献に提案されている複数の手法を使わずに、レンジビュー3次元オブジェクト検出モデル間の最先端を実現する。
論文 参考訳(メタデータ) (2024-07-23T18:42:37Z) - ByteTrackV2: 2D and 3D Multi-Object Tracking by Associating Every
Detection Box [81.45219802386444]
マルチオブジェクトトラッキング(MOT)は、ビデオフレーム間のオブジェクトのバウンディングボックスとIDを推定することを目的としている。
低スコア検出ボックス内の真のオブジェクトをマイニングするための階層型データアソシエーション戦略を提案する。
3次元のシナリオでは、トラッカーが世界座標の物体速度を予測するのがずっと簡単である。
論文 参考訳(メタデータ) (2023-03-27T15:35:21Z) - AOP-Net: All-in-One Perception Network for Joint LiDAR-based 3D Object
Detection and Panoptic Segmentation [9.513467995188634]
AOP-NetはLiDARベースのマルチタスクフレームワークで、3Dオブジェクトの検出とパノプティクスのセグメンテーションを組み合わせたものである。
AOP-Netは、nuScenesベンチマークにおける3Dオブジェクト検出とパノプティクスセグメンテーションの両タスクについて、最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-02T05:31:53Z) - 3D Multi-Object Tracking Using Graph Neural Networks with Cross-Edge
Modality Attention [9.150245363036165]
Batch3DMOTは、現実のシーンを、方向付き、非循環型、カテゴリー非結合な追跡グラフとして表現する。
モーダル間断続性を緩和するクロスエッジアテンション機構を用いたマルチモーダルグラフニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-03-21T12:44:17Z) - SM3D: Simultaneous Monocular Mapping and 3D Detection [1.2183405753834562]
本稿では,同時マッピングと3次元検出のための,革新的で効率的なマルチタスク深層学習フレームワーク(SM3D)を提案する。
両モジュールのエンドツーエンドのトレーニングにより、提案したマッピングと3D検出は、最先端のベースラインを10.0%、精度13.2%で上回っている。
我々の単分子マルチタスクSM3Dは純粋なステレオ3D検出器の2倍以上の速度で、2つのモジュールを別々に使用するより18.3%速い。
論文 参考訳(メタデータ) (2021-11-24T17:23:37Z) - 4D-Net for Learned Multi-Modal Alignment [87.58354992455891]
本稿では,3DポイントクラウドとRGBセンシング情報を利用した3Dオブジェクト検出手法である4D-Netを提案する。
様々な特徴表現や抽象化レベルにまたがる新しい接続学習を行い、また幾何学的制約を観察することで、4D情報を組み込むことができる。
論文 参考訳(メタデータ) (2021-09-02T16:35:00Z) - Improving 3D Object Detection with Channel-wise Transformer [58.668922561622466]
我々は手作りの最小限の設計で2段階の3Dオブジェクト検出フレームワーク(CT3D)を提案する。
CT3Dは、提案対応の埋め込みとチャンネルワイドコンテキストアグリゲーションを同時に行う。
これはKITTIテスト3D検出ベンチマークで中等車カテゴリーで81.77%のAPを達成した。
論文 参考訳(メタデータ) (2021-08-23T02:03:40Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection [13.986963122264633]
CLOC(Camera-LiDAR Object Candidates)融合ネットワークを提案する。
CLOCs融合は低複雑さのマルチモーダル核融合フレームワークを提供する。
CLOCは、公式のKITTIリーダーボードにおいて、全ての核融合法の中で最高であることを示す。
論文 参考訳(メタデータ) (2020-09-02T02:07:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。