Fugu-MT 論文翻訳(概要): MonoSOWA: Scalable monocular 3D Object detector Without human Annotations

論文の概要: MonoSOWA: Scalable monocular 3D Object detector Without human Annotations

arxiv url: http://arxiv.org/abs/2501.09481v2
Date: Mon, 10 Mar 2025 12:27:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 20:09:43.913419
Title: MonoSOWA: Scalable monocular 3D Object detector Without human Annotations
Title（参考訳）: MonoSOWA:人間のアノテーションを使わずにスケーラブルなモノクル3Dオブジェクト検出器
Authors: Jan Skvrna, Lukas Neumann,
Abstract要約: 本稿では,ドメイン固有のアノテーションを使わずに,単一のRGBカメラから3Dオブジェクト検出器をトレーニングする方法を提案する。この手法は3つの公開データセットで評価され、人間のラベルを使わずに、先行研究よりもかなりの差で性能が向上する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Inferring object 3D position and orientation from a single RGB camera is a foundational task in computer vision with many important applications. Traditionally, 3D object detection methods are trained in a fully-supervised setup, requiring LiDAR and vast amounts of human annotations, which are laborious, costly, and do not scale well with the ever-increasing amounts of data being captured. We present a novel method to train a 3D object detector from a single RGB camera without domain-specific human annotations, making orders of magnitude more data available for training. The method uses newly proposed Local Object Motion Model to disentangle object movement source between subsequent frames, is approximately 700 times faster than previous work and compensates camera focal length differences to aggregate multiple datasets. The method is evaluated on three public datasets, where despite using no human labels, it outperforms prior work by a significant margin. It also shows its versatility as a pre-training tool for fully-supervised training and shows that combining pseudo-labels from multiple datasets can achieve comparable accuracy to using human labels from a single dataset. The source code and model will be published soon.
Abstract（参考訳）: 単一のRGBカメラからオブジェクト3Dの位置と向きを推定することは、コンピュータビジョンの基本課題であり、多くの重要な応用がある。従来の3Dオブジェクト検出方法は、完全に教師されたセットアップでトレーニングされており、LiDARと膨大な量の人間のアノテーションを必要とする。本稿では、ドメイン固有の人間のアノテーションを使わずに、単一のRGBカメラから3Dオブジェクト検出器をトレーニングする方法を提案する。この手法では、新たに提案された局所物体運動モデルを用いて、その後のフレーム間で物体の動き源を歪め、カメラ焦点長の差を補正し、複数のデータセットを集約する。この手法は3つの公開データセットで評価され、人間のラベルを使わずに、先行研究よりもかなりの差で性能が向上する。また、完全に教師されたトレーニングのための事前トレーニングツールとしての汎用性を示し、複数のデータセットから擬似ラベルを組み合わせることで、単一のデータセットからの人間のラベルと同等の精度が得られることを示した。ソースコードとモデルはまもなく公開される予定だ。

関連論文リスト

Shelf-Supervised Cross-Modal Pre-Training for 3D Object Detection [52.66283064389691]
最先端の3Dオブジェクト検出器は、しばしば大量のラベル付きデータセットで訓練される。近年の研究では、ラベル付きデータによる自己教師付き事前学習が、ラベル付きラベルによる検出精度を向上させることが示されている。組合わせRGBとLiDARデータからゼロショット3Dバウンディングボックスを生成するためのシェルフ制御手法を提案する。
論文参考訳（メタデータ） (2024-06-14T15:21:57Z)
MDT3D: Multi-Dataset Training for LiDAR 3D Object Detection Generalization [3.8243923744440926]
特定の点分布を持つソースデータセットでトレーニングされた3Dオブジェクト検出モデルは、目に見えないデータセットに一般化する上で困難であることが示されている。我々は、アノテーション付きソースデータセットから利用可能な情報を、MDT3D(Multi-Dataset Training for 3D Object Detection)メソッドで活用する。トレーニング中にデータセットの混合をどのように管理し、最後にクロスデータセット拡張メソッド、すなわちクロスデータセットオブジェクトインジェクションを導入するかを示します。
論文参考訳（メタデータ） (2023-08-02T08:20:00Z)
MonoNext: A 3D Monocular Object Detection with ConvNext [69.33657875725747]
本稿では3次元物体検出のためのMonoNextと呼ばれる新しいマルチタスク学習手法を提案する。 MonoNextは、ConvNextネットワークに基づく直接的なアプローチを採用し、3Dバウンディングボックスデータのみを必要とする。 KITTIデータセットを用いた実験では,MonoNextは最先端のアプローチに匹敵する高精度かつ競争的な性能を達成した。
論文参考訳（メタデータ） (2023-08-01T15:15:40Z)
View-to-Label: Multi-View Consistency for Self-Supervised 3D Object Detection [46.077668660248534]
本稿では,RGBシーケンスのみから,自己監督型3Dオブジェクト検出を行う手法を提案する。 KITTI 3Dデータセットを用いた実験では,最先端の自己管理手法と同等の性能を示した。
論文参考訳（メタデータ） (2023-05-29T09:30:39Z)
Weakly Supervised Monocular 3D Object Detection using Multi-View Projection and Direction Consistency [78.76508318592552]
モノクロ3Dオブジェクト検出は、その容易なアプリケーションのための自動駆動において、主流のアプローチとなっている。現在のほとんどの方法は、トレーニングフェーズで使用される真実をラベル付けするために、まだ3Dポイントのクラウドデータに依存しています。画像にマークされた2次元ラベルだけでモデルを訓練できる,弱教師付きモノクル3次元オブジェクト検出法を提案する。
論文参考訳（メタデータ） (2023-03-15T15:14:00Z)
Generalized Few-Shot 3D Object Detection of LiDAR Point Cloud for Autonomous Driving [91.39625612027386]
我々は,一般的な(ベース)オブジェクトに対して大量のトレーニングデータを持つが,レア(ノーベル)クラスに対してはごく少数のデータしか持たない,一般化された数発の3Dオブジェクト検出という新しいタスクを提案する。具体的には、画像と点雲の奥行きの違いを分析し、3D LiDARデータセットにおける少数ショット設定の実践的原理を示す。この課題を解決するために,既存の3次元検出モデルを拡張し,一般的なオブジェクトと稀なオブジェクトの両方を認識するためのインクリメンタルな微調整手法を提案する。
論文参考訳（メタデータ） (2023-02-08T07:11:36Z)
MonoCInIS: Camera Independent Monocular 3D Object Detection using Instance Segmentation [55.96577490779591]
大規模で異質なトレーニングデータを活用するためには、"カメラ独立"の度合いが必要である。大規模で異質なトレーニングデータの恩恵を受けるためには、より多くのデータがパフォーマンスを自動で保証するのではなく、"カメラ独立"の度合いを持つ必要がある。
論文参考訳（メタデータ） (2021-10-01T14:56:37Z)
3D Annotation Of Arbitrary Objects In The Wild [0.0]
SLAM, 3D再構成, 3D-to-2D幾何に基づくデータアノテーションパイプラインを提案する。このパイプラインは、任意のオブジェクトのピクセル単位のアノテーションとともに、3Dおよび2Dバウンディングボックスを作成することができる。以上の結果から, セマンティックセグメンテーションと2次元バウンディングボックス検出において, 約90%のインターセクション・オーバー・ユニオン(IoU)が一致していることがわかった。
論文参考訳（メタデータ） (2021-09-15T09:00:56Z)
MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文参考訳（メタデータ） (2021-08-10T18:39:56Z)
Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文参考訳（メタデータ） (2021-03-12T15:30:02Z)
CanonPose: Self-Supervised Monocular 3D Human Pose Estimation in the Wild [31.334715988245748]
ラベルのないマルチビューデータから1つの画像3Dポーズ推定器を学習する自己教師型アプローチを提案する。既存のほとんどの方法とは対照的に、校正カメラは必要とせず、移動カメラから学ぶことができる。成功の鍵は、ビューとトレーニングサンプルの情報を混ぜ合わせた、新しく偏見のない再建目標である。
論文参考訳（メタデータ） (2020-11-30T10:42:27Z)
BirdNet+: End-to-End 3D Object Detection in LiDAR Bird's Eye View [117.44028458220427]
自動運転車のオンボード3Dオブジェクト検出は、LiDARデバイスが捉えた幾何学情報に依存することが多い。本稿では,BEV画像のみから指向性3Dボックスを推測可能な,エンドツーエンドの3Dオブジェクト検出フレームワークを提案する。
論文参考訳（メタデータ） (2020-03-09T15:08:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。