論文の概要: LabelAny3D: Label Any Object 3D in the Wild
- arxiv url: http://arxiv.org/abs/2601.01676v1
- Date: Sun, 04 Jan 2026 22:03:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.633816
- Title: LabelAny3D: Label Any Object 3D in the Wild
- Title(参考訳): LabelAny3D: 野生のあらゆるオブジェクト3Dをラベル化
- Authors: Jin Yao, Radowan Mahmud Redoy, Sebastian Elbaum, Matthew B. Dwyer, Zezhou Cheng,
- Abstract要約: COCO3Dは、MS-COCOデータセットから派生したオープンボキャブラリ単分子3D検出のための新しいベンチマークである。
本稿では,2次元画像から総合的な3Dシーンを再構築し,高品質な3Dバウンディングボックスアノテーションを効率よく生成するインカライズ・バイ・シンセサイザーフレームワークであるLabelAny3Dを紹介する。
- 参考スコア(独自算出の注目度): 18.044792932630752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting objects in 3D space from monocular input is crucial for applications ranging from robotics to scene understanding. Despite advanced performance in the indoor and autonomous driving domains, existing monocular 3D detection models struggle with in-the-wild images due to the lack of 3D in-the-wild datasets and the challenges of 3D annotation. We introduce LabelAny3D, an \emph{analysis-by-synthesis} framework that reconstructs holistic 3D scenes from 2D images to efficiently produce high-quality 3D bounding box annotations. Built on this pipeline, we present COCO3D, a new benchmark for open-vocabulary monocular 3D detection, derived from the MS-COCO dataset and covering a wide range of object categories absent from existing 3D datasets. Experiments show that annotations generated by LabelAny3D improve monocular 3D detection performance across multiple benchmarks, outperforming prior auto-labeling approaches in quality. These results demonstrate the promise of foundation-model-driven annotation for scaling up 3D recognition in realistic, open-world settings.
- Abstract(参考訳): モノラル入力から3D空間内の物体を検出することは、ロボット工学からシーン理解に至るまで、アプリケーションにとって不可欠である。
屋内および自律運転領域における高度なパフォーマンスにもかかわらず、既存のモノクル3D検出モデルは、3Dインザワイルドデータセットの欠如と3Dアノテーションの難しさのために、内蔵画像と競合する。
本稿では,2次元画像から全体的3Dシーンを再構成し,高品質な3Dバウンディングボックスアノテーションを効率よく生成する,emph{analysis-by- synthesis}フレームワークであるLabelAny3Dを紹介する。
このパイプライン上に構築されたCOCO3Dは,MS-COCOデータセットから派生したオープンボキャブラリ単分子3D検出のための新しいベンチマークであり,既存の3Dデータセットから欠落する幅広い対象カテゴリをカバーする。
LabelAny3Dによって生成されたアノテーションは、複数のベンチマークでモノラルな3D検出性能を改善し、品質において以前の自動ラベル方式よりも優れていた。
これらの結果は、現実的でオープンな環境での3D認識をスケールアップするための基礎モデル駆動アノテーションの可能性を実証している。
関連論文リスト
- VSRD++: Autolabeling for 3D Object Detection via Instance-Aware Volumetric Silhouette Rendering [18.77072205559739]
VSRD++はモノクル3Dオブジェクト検出のための弱い教師付きフレームワークである。
3Dアノテーションへの依存を排除し、ニューラルフィールドベースのボリュームレンダリングを活用する。
モノクロ3Dオブジェクト検出フェーズでは、最適化された3Dバウンディングボックスが擬似ラベルとして機能する。
論文 参考訳(メタデータ) (2025-12-01T01:28:35Z) - 3D Aware Region Prompted Vision Language Model [99.4106711584584]
SR-3Dは、共有された視覚トークン空間を介して、シングルビュー2D画像とマルチビュー3Dデータを接続する。
SR-3Dはフレキシブルな領域プロンプトをサポートしており、バウンディングボックス、任意のフレーム上のセグメンテーションマスク、あるいは直接3Dでアノテートできる。
論文 参考訳(メタデータ) (2025-09-16T17:59:06Z) - 3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection [62.57179069154312]
最初のエンドツーエンド3Dモノクロオープンセットオブジェクト検出器(3D-MOOD)を紹介する。
私たちはオープンセットの2D検出を設計した3Dバウンディングボックスヘッドを通して3D空間に持ち上げます。
対象クエリを事前に幾何学的に条件付けし,様々な場面で3次元推定の一般化を克服する。
論文 参考訳(メタデータ) (2025-07-31T13:56:41Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。