論文の概要: Improving Distant 3D Object Detection Using 2D Box Supervision
- arxiv url: http://arxiv.org/abs/2403.09230v1
- Date: Thu, 14 Mar 2024 09:54:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 21:07:03.481947
- Title: Improving Distant 3D Object Detection Using 2D Box Supervision
- Title(参考訳): 2次元ボックススーパービジョンを用いた距離3次元物体検出の改良
- Authors: Zetong Yang, Zhiding Yu, Chris Choy, Renhao Wang, Anima Anandkumar, Jose M. Alvarez,
- Abstract要約: 遠方の物体の欠損した深さを回復するフレームワークであるLR3Dを提案する。
我々のフレームワークは汎用的であり、3D検出手法を広く活用する可能性がある。
- 参考スコア(独自算出の注目度): 97.80225758259147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Improving the detection of distant 3d objects is an important yet challenging task. For camera-based 3D perception, the annotation of 3d bounding relies heavily on LiDAR for accurate depth information. As such, the distance of annotation is often limited due to the sparsity of LiDAR points on distant objects, which hampers the capability of existing detectors for long-range scenarios. We address this challenge by considering only 2D box supervision for distant objects since they are easy to annotate. We propose LR3D, a framework that learns to recover the missing depth of distant objects. LR3D adopts an implicit projection head to learn the generation of mapping between 2D boxes and depth using the 3D supervision on close objects. This mapping allows the depth estimation of distant objects conditioned on their 2D boxes, making long-range 3D detection with 2D supervision feasible. Experiments show that without distant 3D annotations, LR3D allows camera-based methods to detect distant objects (over 200m) with comparable accuracy to full 3D supervision. Our framework is general, and could widely benefit 3D detection methods to a large extent.
- Abstract(参考訳): 遠方の3dオブジェクトの検出を改善することは重要な課題である。
カメラによる3D認識では、3dバウンディングのアノテーションは正確な深度情報を得るためにLiDARに大きく依存する。
そのため、遠方の物体のLiDAR点の間隔が狭いため、アノテーションの距離が制限されることがしばしばあり、これは長距離シナリオの既存の検出器の能力を損なう。
注釈が簡単であるため,遠隔物体の2次元ボックス管理のみを考慮し,この問題に対処する。
遠方の物体の欠損した深さを回復するフレームワークであるLR3Dを提案する。
LR3Dは暗黙のプロジェクションヘッドを用いて、2Dボックスと深度の間のマッピングの生成を、クローズドオブジェクトの3D監視を用いて学習する。
このマッピングにより、2Dの箱に固定された遠方の物体の深さを推定でき、2Dの監督により長距離の3D検出が可能となる。
実験によると、遠方の3Dアノテーションがなければ、LR3Dはカメラベースの手法で(200mを超える)遠方の物体を完全な3D監視と同等の精度で検出できる。
我々のフレームワークは汎用的であり、3D検出手法を広く活用する可能性がある。
関連論文リスト
- General Geometry-aware Weakly Supervised 3D Object Detection [62.26729317523975]
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。
KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
論文 参考訳(メタデータ) (2024-07-18T17:52:08Z) - Enhancing 3D Object Detection with 2D Detection-Guided Query Anchors [6.3557174349423455]
本稿では,2次元検出結果から3次元クエリアンカーを推定するQAF2Dという新しいクエリ生成手法を提案する。
QAF2DがnuScenesの検証サブセットにもたらす最大の改善は、NDSが2.3%、mAPが2.7%である。
論文 参考訳(メタデータ) (2024-03-10T04:38:27Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - Tracking Objects with 3D Representation from Videos [57.641129788552675]
P3DTrackと呼ばれる新しい2次元多目的追跡パラダイムを提案する。
モノクロビデオにおける擬似3Dオブジェクトラベルからの3次元オブジェクト表現学習により,P3DTrackと呼ばれる新しい2次元MOTパラダイムを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:58:45Z) - Object as Query: Lifting any 2D Object Detector to 3D Detection [30.393111518104313]
マルチビュー2Dオブジェクトガイド3Dオブジェクト検出器(MV2D)を設計する。
MV2Dは2D検出器を利用してリッチな画像意味論に基づくオブジェクトクエリを生成する。
生成されたクエリに対して、特定のオブジェクトの特徴にフォーカスするように、スパースなクロスアテンションモジュールを設計する。
論文 参考訳(メタデータ) (2023-01-06T04:08:20Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - YOLOStereo3D: A Step Back to 2D for Efficient Stereo 3D Detection [6.5702792909006735]
YOLOStereo3Dは1つのGPUでトレーニングされ、10fps以上で動作する。
LiDARデータを使わずに、最先端のステレオ3D検出フレームワークに匹敵するパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-03-17T03:43:54Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。