論文の概要: ToosiCubix: Monocular 3D Cuboid Labeling via Vehicle Part Annotations
- arxiv url: http://arxiv.org/abs/2506.21358v1
- Date: Thu, 26 Jun 2025 15:09:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.154481
- Title: ToosiCubix: Monocular 3D Cuboid Labeling via Vehicle Part Annotations
- Title(参考訳): ToosiCubix:自動車部品の注釈による単分子3D立方体ラベリング
- Authors: Behrooz Nasihatkon, Hossein Resani, Amirreza Mehrzadian,
- Abstract要約: Toosiixは、単眼画像とカメラパラメータのみを用いて、接地木立方体に注釈を付けるための、シンプルだが強力なアプローチである。
提案手法では,車両1台あたり10クリック程度しか必要とせず,既存のデータセットに3Dアノテーションを追加することは極めて実用的である。
KITTIとCityscapes3Dデータセットに対するアノテーションを検証することで、当社の手法がコスト効率が高くスケーラブルなソリューションを提供することを示す。
- 参考スコア(独自算出の注目度): 0.40964539027092906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many existing methods for 3D cuboid annotation of vehicles rely on expensive and carefully calibrated camera-LiDAR or stereo setups, limiting their accessibility for large-scale data collection. We introduce ToosiCubix, a simple yet powerful approach for annotating ground-truth cuboids using only monocular images and intrinsic camera parameters. Our method requires only about 10 user clicks per vehicle, making it highly practical for adding 3D annotations to existing datasets originally collected without specialized equipment. By annotating specific features (e.g., wheels, car badge, symmetries) across different vehicle parts, we accurately estimate each vehicle's position, orientation, and dimensions up to a scale ambiguity (8 DoF). The geometric constraints are formulated as an optimization problem, which we solve using a coordinate descent strategy, alternating between Perspective-n-Points (PnP) and least-squares subproblems. To handle common ambiguities such as scale and unobserved dimensions, we incorporate probabilistic size priors, enabling 9 DoF cuboid placements. We validate our annotations against the KITTI and Cityscapes3D datasets, demonstrating that our method offers a cost-effective and scalable solution for high-quality 3D cuboid annotation.
- Abstract(参考訳): 3D cuboidアノテーションの既存の多くの方法は、高価で慎重に校正されたカメラ-LiDARまたはステレオ設定に依存しており、大規模なデータ収集のアクセシビリティを制限している。
我々は,単眼画像と固有のカメラパラメータのみを用いて,接地木立方体に注釈を付けるための,シンプルながら強力なアプローチであるTothiCubixを紹介した。
提案手法では,車両1台あたり10クリック程度しか必要とせず,従来の3Dアノテーションを専用機器なしで収集した既存のデータセットに追加することは極めて実用的である。
異なる車両部品に特定の特徴(例えば車輪、車バッジ、対称性)をアノテートすることにより、各車両の位置、方向、寸法を正確に推定し、スケールのあいまいさ (8 DoF) を推定する。
幾何的制約は最適化問題として定式化され、座標降下戦略を用いて、パースペクティブ-n-ポイント(PnP)と最小二乗部分プロブレムの交互化を解く。
スケールや非可観測次元などの共通曖昧性に対処するため、確率的大きさの先行を取り入れ、9つのDoF立方体配置を可能にした。
我々は,KITTIおよびCityscapes3Dデータセットに対するアノテーションの有効性を検証し,高品質な3次元立方体アノテーションに対してコスト効率でスケーラブルなソリューションを提供することを実証した。
関連論文リスト
- NeurOCS: Neural NOCS Supervision for Monocular 3D Object Localization [80.3424839706698]
入力として3Dボックスをインスタンスマスクとして使用するNeurOCSを提案する。
われわれのアプローチは、実際の運転シーンから直接カテゴリレベルの形状を学習する際の洞察に依存している。
我々は、オブジェクト中心の視点からオブジェクト座標をより効果的に学習するための重要な設計選択を行う。
論文 参考訳(メタデータ) (2023-05-28T16:18:41Z) - Learning Occupancy for Monocular 3D Object Detection [25.56336546513198]
モノクローナル3次元検出のための占有度学習法であるtextbfOccupancy M3D を提案する。
フラストムと3D空間の占有を直接学習し、より差別的で情報的な3D特徴や表現をもたらす。
KITTIとオープンデータセットの実験により,提案手法が新たな最先端技術を実現し,他の手法をはるかに上回っていることが示された。
論文 参考訳(メタデータ) (2023-05-25T04:03:46Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - You Only Label Once: 3D Box Adaptation from Point Cloud to Image via
Semi-Supervised Learning [31.914887148307706]
本研究では,パノラマカメラの外観を完璧に適合させるために,Lidar 3Dバウンディングボックスの最小パラメータを自動的に調整する学習型3Dボックス適応手法を提案する。
これは精度と効率のバランスを良くし、正確な立方体アノテーションに対するラベル付けの労力を劇的に削減する。
論文 参考訳(メタデータ) (2022-11-17T02:28:58Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Cuboids Revisited: Learning Robust 3D Shape Fitting to Single RGB Images [44.223070672713455]
特に、人為的な環境は、一般的にキュービドやシリンダーのようなボリュームプリミティブから成り立っている。
従来のアプローチでは、2Dまたは3D入力から直接形状パラメータを推定し、単純なオブジェクトのみを再現できる。
立方体を用いた実世界の環境を有意義に抽象化するプリミティブフィッティングのための堅牢な推定器を提案する。
論文 参考訳(メタデータ) (2021-05-05T13:36:00Z) - Cityscapes 3D: Dataset and Benchmark for 9 DoF Vehicle Detection [7.531596091318718]
我々はCityscapes 3Dを提案し、Cityscapesのオリジナルのデータセットを拡張し、あらゆる種類の車両に対して3Dバウンディングボックスアノテーションを提供する。
既存のデータセットとは対照的に、3DアノテーションはステレオRGB画像のみを使用してラベル付けされ、9自由度をすべてキャプチャしました。
さらに、我々はCityscapesベンチマークスイートを、新しいアノテーションに基づく3D車両検出と、この研究で提示されたメトリクスで補完する。
論文 参考訳(メタデータ) (2020-06-14T10:56:27Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。