論文の概要: MonoSOWA: Scalable monocular 3D Object detector Without human Annotations
- arxiv url: http://arxiv.org/abs/2501.09481v1
- Date: Thu, 16 Jan 2025 11:35:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:11:51.747083
- Title: MonoSOWA: Scalable monocular 3D Object detector Without human Annotations
- Title(参考訳): MonoSOWA:人間のアノテーションを使わずにスケーラブルなモノクル3Dオブジェクト検出器
- Authors: Jan Skvrna, Lukas Neumann,
- Abstract要約: そこで本研究では,ドメイン固有のアノテーションを使わずに,単眼のRGBカメラに3Dオブジェクト検出器をトレーニングする手法を提案する。
新たに提案されたCanonical Object Spaceのおかげで、この手法は、さまざまなデータセットやカメラのセットアップにまたがるデータを利用して、単一の3D検出器を訓練するだけでなく、これまでは見えなかったカメラのセットアップでも使える。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Detecting the three-dimensional position and orientation of objects using a single RGB camera is a foundational task in computer vision with many important applications. Traditionally, 3D object detection methods are trained in a fully-supervised setup, requiring vast amounts of human annotations, which are laborious, costly, and do not scale well with the ever-increasing amounts of data being captured. In this paper, we present the first method to train 3D object detectors for monocular RGB cameras without domain-specific human annotations, thus making orders of magnitude more data available for training. Thanks to newly proposed Canonical Object Space, the method can not only exploit data across a variety of datasets and camera setups to train a single 3D detector, but unlike previous work it also works out of the box in previously unseen camera setups. All this is crucial for practical applications, where the data and cameras are extremely heterogeneous. The method is evaluated on two standard autonomous driving datasets, where it outperforms previous works, which, unlike our method, still rely on 2D human annotations.
- Abstract(参考訳): 単一のRGBカメラを用いて物体の3次元位置と向きを検出することは、コンピュータビジョンの基本課題であり、多くの重要な応用がある。
伝統的に、3Dオブジェクト検出方法は、完全に教師された設定で訓練され、膨大な量の人間のアノテーションを必要とする。
本稿では、ドメイン固有の人間のアノテーションを使わずに、単眼RGBカメラ用の3Dオブジェクト検出器をトレーニングする最初の方法を提案する。
新たに提案されたCanonical Object Spaceのおかげで、この手法は、さまざまなデータセットやカメラのセットアップにまたがるデータを利用して、単一の3D検出器を訓練するだけでなく、これまでは見えなかったカメラのセットアップでも使える。
これらすべてが、データとカメラが極めて異質な、実用的なアプリケーションに不可欠です。
この手法は2つの標準的な自律走行データセットで評価され、従来よりも優れていた2次元の人間のアノテーションに依存している。
関連論文リスト
- MonoNext: A 3D Monocular Object Detection with ConvNext [69.33657875725747]
本稿では3次元物体検出のためのMonoNextと呼ばれる新しいマルチタスク学習手法を提案する。
MonoNextは、ConvNextネットワークに基づく直接的なアプローチを採用し、3Dバウンディングボックスデータのみを必要とする。
KITTIデータセットを用いた実験では,MonoNextは最先端のアプローチに匹敵する高精度かつ競争的な性能を達成した。
論文 参考訳(メタデータ) (2023-08-01T15:15:40Z) - View-to-Label: Multi-View Consistency for Self-Supervised 3D Object
Detection [46.077668660248534]
本稿では,RGBシーケンスのみから,自己監督型3Dオブジェクト検出を行う手法を提案する。
KITTI 3Dデータセットを用いた実験では,最先端の自己管理手法と同等の性能を示した。
論文 参考訳(メタデータ) (2023-05-29T09:30:39Z) - Weakly Supervised Monocular 3D Object Detection using Multi-View
Projection and Direction Consistency [78.76508318592552]
モノクロ3Dオブジェクト検出は、その容易なアプリケーションのための自動駆動において、主流のアプローチとなっている。
現在のほとんどの方法は、トレーニングフェーズで使用される真実をラベル付けするために、まだ3Dポイントのクラウドデータに依存しています。
画像にマークされた2次元ラベルだけでモデルを訓練できる,弱教師付きモノクル3次元オブジェクト検出法を提案する。
論文 参考訳(メタデータ) (2023-03-15T15:14:00Z) - Generalized Few-Shot 3D Object Detection of LiDAR Point Cloud for
Autonomous Driving [91.39625612027386]
我々は,一般的な(ベース)オブジェクトに対して大量のトレーニングデータを持つが,レア(ノーベル)クラスに対してはごく少数のデータしか持たない,一般化された数発の3Dオブジェクト検出という新しいタスクを提案する。
具体的には、画像と点雲の奥行きの違いを分析し、3D LiDARデータセットにおける少数ショット設定の実践的原理を示す。
この課題を解決するために,既存の3次元検出モデルを拡張し,一般的なオブジェクトと稀なオブジェクトの両方を認識するためのインクリメンタルな微調整手法を提案する。
論文 参考訳(メタデータ) (2023-02-08T07:11:36Z) - MonoCInIS: Camera Independent Monocular 3D Object Detection using
Instance Segmentation [55.96577490779591]
大規模で異質なトレーニングデータを活用するためには、"カメラ独立"の度合いが必要である。
大規模で異質なトレーニングデータの恩恵を受けるためには、より多くのデータがパフォーマンスを自動で保証するのではなく、"カメラ独立"の度合いを持つ必要がある。
論文 参考訳(メタデータ) (2021-10-01T14:56:37Z) - 3D Annotation Of Arbitrary Objects In The Wild [0.0]
SLAM, 3D再構成, 3D-to-2D幾何に基づくデータアノテーションパイプラインを提案する。
このパイプラインは、任意のオブジェクトのピクセル単位のアノテーションとともに、3Dおよび2Dバウンディングボックスを作成することができる。
以上の結果から, セマンティックセグメンテーションと2次元バウンディングボックス検出において, 約90%のインターセクション・オーバー・ユニオン(IoU)が一致していることがわかった。
論文 参考訳(メタデータ) (2021-09-15T09:00:56Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z) - CanonPose: Self-Supervised Monocular 3D Human Pose Estimation in the
Wild [31.334715988245748]
ラベルのないマルチビューデータから1つの画像3Dポーズ推定器を学習する自己教師型アプローチを提案する。
既存のほとんどの方法とは対照的に、校正カメラは必要とせず、移動カメラから学ぶことができる。
成功の鍵は、ビューとトレーニングサンプルの情報を混ぜ合わせた、新しく偏見のない再建目標である。
論文 参考訳(メタデータ) (2020-11-30T10:42:27Z) - BirdNet+: End-to-End 3D Object Detection in LiDAR Bird's Eye View [117.44028458220427]
自動運転車のオンボード3Dオブジェクト検出は、LiDARデバイスが捉えた幾何学情報に依存することが多い。
本稿では,BEV画像のみから指向性3Dボックスを推測可能な,エンドツーエンドの3Dオブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-09T15:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。