論文の概要: MoCA3D: Monocular 3D Bounding Box Prediction in the Image Plane
- arxiv url: http://arxiv.org/abs/2603.19538v1
- Date: Fri, 20 Mar 2026 00:33:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.925601
- Title: MoCA3D: Monocular 3D Bounding Box Prediction in the Image Plane
- Title(参考訳): MoCA3D:画像平面における単眼の3D境界ボックス予測
- Authors: Changwoo Jeon, Rishi Upadhyay, Achuta Kadambi,
- Abstract要約: MoCA3Dは単眼のクラス非依存の3Dモデルで、推論時にカメラ固有の機能を必要とせず、3D境界ボックスコーナーとコーナーごとの深さを予測する。
実験により、MoCA3Dは最先端の性能を実現し、画像平面角PAGを22.8%改善した。
- 参考スコア(独自算出の注目度): 8.072560546629587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D object understanding has largely been cast as a 2D RoI-to-3D box lifting problem. However, emerging downstream applications require image-plane geometry (e.g., projected 3D box corners) which cannot be easily obtained without known intrinsics, a problem for object detection in the wild. We introduce MoCA3D, a Monocular, Class-Agnostic 3D model that predicts projected 3D bounding box corners and per-corner depths without requiring camera intrinsics at inference time. MoCA3D formulates pixel-space localization and depth assignment as dense prediction via corner heatmaps and depth maps. To evaluate image-plane geometric fidelity, we propose Pixel-Aligned Geometry (PAG), which directly measures image-plane corner and depth consistency. Extensive experiments demonstrate that MoCA3D achieves state-of-the-art performance, improving image-plane corner PAG by 22.8% while remaining comparable on 3D IoU, using up to 57 times fewer trainable parameters. Finally, we apply MoCA3D to downstream tasks which were previously impractical under unknown intrinsics, highlighting its utility beyond standard baseline models.
- Abstract(参考訳): 単眼の3Dオブジェクト理解は、主に2D RoI-to-3Dボックスリフト問題として採用されている。
しかし、下流のアプリケーションは画像平面幾何学(例えば、投影された3Dボックスコーナー)を必要とするため、自然界における物体検出の問題として、未知の内在論がなければ容易には得られない。
単分子型クラス非依存の3DモデルであるMoCA3Dを導入する。
MoCA3Dは、角のヒートマップと深度マップによる密度予測としてピクセル空間の局所化と深度割り当てを定式化している。
画像平面の幾何学的忠実度を評価するために,画像平面の角と深さの整合性を直接測定するピクセル配向幾何学(PAG)を提案する。
大規模な実験により、MoCA3Dは最先端の性能を達成し、画像平面角PAGを22.8%改善し、3D IoUに匹敵する性能を保ち、最大57倍のトレーニング可能なパラメータを使用した。
最後に、未知の内在的条件下では非現実的であった下流タスクにMoCA3Dを適用し、標準ベースラインモデルを超えてその実用性を強調した。
関連論文リスト
- 3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection [62.57179069154312]
最初のエンドツーエンド3Dモノクロオープンセットオブジェクト検出器(3D-MOOD)を紹介する。
私たちはオープンセットの2D検出を設計した3Dバウンディングボックスヘッドを通して3D空間に持ち上げます。
対象クエリを事前に幾何学的に条件付けし,様々な場面で3次元推定の一般化を克服する。
論文 参考訳(メタデータ) (2025-07-31T13:56:41Z) - Deep Geometric Moments Promote Shape Consistency in Text-to-3D Generation [27.43973967994717]
MT3Dは高忠実度3Dオブジェクトを利用して視点バイアスを克服するテキスト・ツー・3D生成モデルである。
3Dアセットから幾何学的詳細を取り入れることで、MT3Dは多様で幾何学的に一貫したオブジェクトを作成することができる。
論文 参考訳(メタデータ) (2024-08-12T06:25:44Z) - General Geometry-aware Weakly Supervised 3D Object Detection [62.26729317523975]
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。
KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
論文 参考訳(メタデータ) (2024-07-18T17:52:08Z) - Points-to-3D: Bridging the Gap between Sparse Points and
Shape-Controllable Text-to-3D Generation [16.232803881159022]
本稿では,スパースで自由な3Dポイントとリアルな形状制御可能な3D生成とのギャップを埋めるために,Points-to-3Dのフレキシブルなフレームワークを提案する。
Points-to-3Dの基本的な考え方は、テキストから3D生成を導くために制御可能なスパース3Dポイントを導入することである。
論文 参考訳(メタデータ) (2023-07-26T02:16:55Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - AutoShape: Real-Time Shape-Aware Monocular 3D Object Detection [15.244852122106634]
形状認識型2D/3D制約を3D検出フレームワークに組み込む手法を提案する。
具体的には、ディープニューラルネットワークを用いて、2次元画像領域の区別された2Dキーポイントを学習する。
2D/3Dキーポイントの基礎的真理を生成するために、自動的なモデル適合手法が提案されている。
論文 参考訳(メタデータ) (2021-08-25T08:50:06Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Monocular 3D Object Detection with Decoupled Structured Polygon
Estimation and Height-Guided Depth Estimation [41.29145717658494]
本稿では,検出問題を構造化ポリゴン予測タスクと深度回復タスクに分解する新しい統合フレームワークを提案する。
広く使われている3Dバウンディングボックスの提案と比較すると、3D検出のためのより良い表現であることが示されている。
KITTIベンチマークにおいて,本手法が最先端検出精度を実現するための実験を行った。
論文 参考訳(メタデータ) (2020-02-05T03:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。