論文の概要: FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection
- arxiv url: http://arxiv.org/abs/2104.10956v1
- Date: Thu, 22 Apr 2021 09:35:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 14:04:04.603503
- Title: FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection
- Title(参考訳): fcos3d:完全畳み込み型単眼3次元物体検出
- Authors: Tai Wang, Xinge Zhu, Jiangmiao Pang, Dahua Lin
- Abstract要約: 一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
- 参考スコア(独自算出の注目度): 78.00922683083776
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Monocular 3D object detection is an important task for autonomous driving
considering its advantage of low cost. It is much more challenging compared to
conventional 2D case due to its inherent ill-posed property, which is mainly
reflected on the lack of depth information. Recent progress on 2D detection
offers opportunities to better solving this problem. However, it is non-trivial
to make a general adapted 2D detector work in this 3D task. In this technical
report, we study this problem with a practice built on fully convolutional
single-stage detector and propose a general framework FCOS3D. Specifically, we
first transform the commonly defined 7-DoF 3D targets to image domain and
decouple it as 2D and 3D attributes. Then the objects are distributed to
different feature levels with the consideration of their 2D scales and assigned
only according to the projected 3D-center for training procedure. Furthermore,
the center-ness is redefined with a 2D Guassian distribution based on the
3D-center to fit the 3D target formulation. All of these make this framework
simple yet effective, getting rid of any 2D detection or 2D-3D correspondence
priors. Our solution achieves 1st place out of all the vision-only methods in
the nuScenes 3D detection challenge of NeurIPS 2020. Code and models are
released at https://github.com/open-mmlab/mmdetection3d.
- Abstract(参考訳): 単眼3次元物体検出は、低コストの利点を考慮した自動運転において重要な課題である。
深度情報の欠如を主な要因として, 従来の2Dケースと比較して, より困難である。
2D検出の最近の進歩は、この問題をよりよく解決する機会を提供する。
しかし、この3Dタスクで一般的な2D検出器を動作させることは自明ではない。
本稿では, この問題を, 完全畳み込み型単段検出器を用いた手法を用いて検討し, 汎用フレームワークFCOS3Dを提案する。
具体的には、一般的に定義された7-DoF 3Dターゲットを画像領域に変換し、2Dおよび3D属性として分離する。
対象物は2次元のスケールを考慮して異なる特徴レベルに分散され、トレーニング手順として投影された3D中心にのみ割り当てられる。
さらに、中心性は3D中心に基づく2次元グアシアン分布で再定義され、3D目標の定式化に適合する。
これらすべてが、このフレームワークをシンプルで効果的にし、2D検出や2D-3D対応を排除します。
われわれのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジにおける視覚のみの手法のうち、第1位を達成している。
コードとモデルはhttps://github.com/open-mmlab/mmdetection3dでリリースされている。
関連論文リスト
- General Geometry-aware Weakly Supervised 3D Object Detection [62.26729317523975]
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。
KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
論文 参考訳(メタデータ) (2024-07-18T17:52:08Z) - Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。
入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:59:45Z) - Enhancing 3D Object Detection with 2D Detection-Guided Query Anchors [6.3557174349423455]
本稿では,2次元検出結果から3次元クエリアンカーを推定するQAF2Dという新しいクエリ生成手法を提案する。
QAF2DがnuScenesの検証サブセットにもたらす最大の改善は、NDSが2.3%、mAPが2.7%である。
論文 参考訳(メタデータ) (2024-03-10T04:38:27Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - AutoShape: Real-Time Shape-Aware Monocular 3D Object Detection [15.244852122106634]
形状認識型2D/3D制約を3D検出フレームワークに組み込む手法を提案する。
具体的には、ディープニューラルネットワークを用いて、2次元画像領域の区別された2Dキーポイントを学習する。
2D/3Dキーポイントの基礎的真理を生成するために、自動的なモデル適合手法が提案されている。
論文 参考訳(メタデータ) (2021-08-25T08:50:06Z) - FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle
Detection [81.79171905308827]
3Dアノテーションを使わずに点雲中の車両を検出するためのフラストラム対応幾何推論(FGR)を提案する。
本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。
2Dバウンディングボックスとスパースポイントクラウドだけで、3D空間内のオブジェクトを正確に検出できます。
論文 参考訳(メタデータ) (2021-05-17T07:29:55Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Learning to Predict the 3D Layout of a Scene [0.3867363075280544]
本稿では,単一のRGB画像のみを使用する手法を提案し,LiDARセンサを持たないデバイスや車両に適用できるようにする。
KITTIデータセットは,クラスラベル付き道路交通シーン,2D境界ボックス,自由度7自由度3Dアノテーションで構成される。
我々は、公式のKITTIベンチマークで要求されるように、結合閾値70%の3次元交差で測定された適度に困難なデータに対して平均47.3%の平均精度を達成し、従来の最先端のRGBのみの手法よりも大きなマージンで上回った。
論文 参考訳(メタデータ) (2020-11-19T17:23:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。