論文の概要: Polygon Intersection-over-Union Loss for Viewpoint-Agnostic Monocular 3D
Vehicle Detection
- arxiv url: http://arxiv.org/abs/2309.07104v1
- Date: Wed, 13 Sep 2023 17:25:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 13:20:42.918108
- Title: Polygon Intersection-over-Union Loss for Viewpoint-Agnostic Monocular 3D
Vehicle Detection
- Title(参考訳): 視点非依存な単眼3D車両検出のための多角形断面積損失
- Authors: Derek Gloudemans, Xinxuan Lu, Shepard Xia, Daniel B. Work
- Abstract要約: 本研究では、2つの凸多角形間のIoUの効率的な計算法を提案する。
提案したポリゴンIoU損失を、3つの最先端の視点に依存しない3次元検出モデルで評価する。
- 参考スコア(独自算出の注目度): 4.506099292980221
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular 3D object detection is a challenging task because depth information
is difficult to obtain from 2D images. A subset of viewpoint-agnostic monocular
3D detection methods also do not explicitly leverage scene homography or
geometry during training, meaning that a model trained thusly can detect
objects in images from arbitrary viewpoints. Such works predict the projections
of the 3D bounding boxes on the image plane to estimate the location of the 3D
boxes, but these projections are not rectangular so the calculation of IoU
between these projected polygons is not straightforward. This work proposes an
efficient, fully differentiable algorithm for the calculation of IoU between
two convex polygons, which can be utilized to compute the IoU between two 3D
bounding box footprints viewed from an arbitrary angle. We test the performance
of the proposed polygon IoU loss (PIoU loss) on three state-of-the-art
viewpoint-agnostic 3D detection models. Experiments demonstrate that the
proposed PIoU loss converges faster than L1 loss and that in 3D detection
models, a combination of PIoU loss and L1 loss gives better results than L1
loss alone (+1.64% AP70 for MonoCon on cars, +0.18% AP70 for RTM3D on cars, and
+0.83%/+2.46% AP50/AP25 for MonoRCNN on cyclists).
- Abstract(参考訳): 2次元画像から深度情報を得るのが難しいため,モノクロ3次元物体検出は難しい課題である。
視点に依存しない3d検出手法のサブセットは、トレーニング中にシーンのホモグラフィーや幾何学を明示的に活用していない。
このような研究は、画像平面上の3D境界ボックスの投影を予測して3Dボックスの位置を推定するが、これらの投影は長方形ではないため、これらの投影されたポリゴン間のIoUの計算は簡単ではない。
本研究では、2つの凸多角形間のIoUの計算を効率よく完全に微分可能なアルゴリズムを提案し、任意の角度から見る2つの3次元境界ボックスフットプリント間のIoUの計算に利用できる。
提案する多角形iou損失(piou損失)の性能を3つの最先端視点非依存3次元検出モデルで検証した。
実験により、提案したPIoU損失はL1損失よりも早く収束し、3次元検出モデルでは、PIoU損失とL1損失の組み合わせはL1損失単独よりも優れた結果が得られる(自動車では+1.64% AP70、自動車では+0.18% AP70、自転車では+0.83%/+2.46% AP50/AP25)。
関連論文リスト
- Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries [43.02373021724797]
マルチカメラ3Dオブジェクト検出のためのフレームワークを提案する。
本手法は3次元空間での予測を直接操作する。
我々はnuScenes自動運転ベンチマークで最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-10-13T17:59:35Z) - AutoShape: Real-Time Shape-Aware Monocular 3D Object Detection [15.244852122106634]
形状認識型2D/3D制約を3D検出フレームワークに組み込む手法を提案する。
具体的には、ディープニューラルネットワークを用いて、2次元画像領域の区別された2Dキーポイントを学習する。
2D/3Dキーポイントの基礎的真理を生成するために、自動的なモデル適合手法が提案されている。
論文 参考訳(メタデータ) (2021-08-25T08:50:06Z) - FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle
Detection [81.79171905308827]
3Dアノテーションを使わずに点雲中の車両を検出するためのフラストラム対応幾何推論(FGR)を提案する。
本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。
2Dバウンディングボックスとスパースポイントクラウドだけで、3D空間内のオブジェクトを正確に検出できます。
論文 参考訳(メタデータ) (2021-05-17T07:29:55Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - Delving into Localization Errors for Monocular 3D Object Detection [85.77319416168362]
単眼画像から3Dバウンディングボックスを推定することは、自動運転に不可欠な要素です。
本研究では, 各サブタスクがもたらす影響を定量化し, 局所化誤差を求めることが, モノクロ3次元検出の抑制に欠かせない要因である。
論文 参考訳(メタデータ) (2021-03-30T10:38:01Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z) - Learning 2D-3D Correspondences To Solve The Blind Perspective-n-Point
Problem [98.92148855291363]
本稿では、6-DoFの絶対カメラポーズ2D--3D対応を同時に解決するディープCNNモデルを提案する。
実データとシミュレーションデータの両方でテストした結果,本手法は既存手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-03-15T04:17:30Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z) - RTM3D: Real-time Monocular 3D Detection from Object Keypoints for
Autonomous Driving [26.216609821525676]
最も成功した3D検出器は、3Dバウンディングボックスから2Dボックスへの投射制約を重要な構成要素としている。
画像空間における3次元境界ボックスの9つの視点キーポイントを予測し、3次元空間における3次元視点と2次元視点の幾何学的関係を利用して、次元、位置、方向を復元する。
提案手法は,KITTIベンチマークの最先端性能を達成しつつ,モノクロ画像の3次元検出を行う最初のリアルタイムシステムである。
論文 参考訳(メタデータ) (2020-01-10T08:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。