論文の概要: LabelAny3D: Label Any Object 3D in the Wild
- arxiv url: http://arxiv.org/abs/2601.01676v1
- Date: Sun, 04 Jan 2026 22:03:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.633816
- Title: LabelAny3D: Label Any Object 3D in the Wild
- Title(参考訳): LabelAny3D: 野生のあらゆるオブジェクト3Dをラベル化
- Authors: Jin Yao, Radowan Mahmud Redoy, Sebastian Elbaum, Matthew B. Dwyer, Zezhou Cheng,
- Abstract要約: COCO3Dは、MS-COCOデータセットから派生したオープンボキャブラリ単分子3D検出のための新しいベンチマークである。
本稿では,2次元画像から総合的な3Dシーンを再構築し,高品質な3Dバウンディングボックスアノテーションを効率よく生成するインカライズ・バイ・シンセサイザーフレームワークであるLabelAny3Dを紹介する。
- 参考スコア(独自算出の注目度): 18.044792932630752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting objects in 3D space from monocular input is crucial for applications ranging from robotics to scene understanding. Despite advanced performance in the indoor and autonomous driving domains, existing monocular 3D detection models struggle with in-the-wild images due to the lack of 3D in-the-wild datasets and the challenges of 3D annotation. We introduce LabelAny3D, an \emph{analysis-by-synthesis} framework that reconstructs holistic 3D scenes from 2D images to efficiently produce high-quality 3D bounding box annotations. Built on this pipeline, we present COCO3D, a new benchmark for open-vocabulary monocular 3D detection, derived from the MS-COCO dataset and covering a wide range of object categories absent from existing 3D datasets. Experiments show that annotations generated by LabelAny3D improve monocular 3D detection performance across multiple benchmarks, outperforming prior auto-labeling approaches in quality. These results demonstrate the promise of foundation-model-driven annotation for scaling up 3D recognition in realistic, open-world settings.
- Abstract(参考訳): モノラル入力から3D空間内の物体を検出することは、ロボット工学からシーン理解に至るまで、アプリケーションにとって不可欠である。
屋内および自律運転領域における高度なパフォーマンスにもかかわらず、既存のモノクル3D検出モデルは、3Dインザワイルドデータセットの欠如と3Dアノテーションの難しさのために、内蔵画像と競合する。
本稿では,2次元画像から全体的3Dシーンを再構成し,高品質な3Dバウンディングボックスアノテーションを効率よく生成する,emph{analysis-by- synthesis}フレームワークであるLabelAny3Dを紹介する。
このパイプライン上に構築されたCOCO3Dは,MS-COCOデータセットから派生したオープンボキャブラリ単分子3D検出のための新しいベンチマークであり,既存の3Dデータセットから欠落する幅広い対象カテゴリをカバーする。
LabelAny3Dによって生成されたアノテーションは、複数のベンチマークでモノラルな3D検出性能を改善し、品質において以前の自動ラベル方式よりも優れていた。
これらの結果は、現実的でオープンな環境での3D認識をスケールアップするための基礎モデル駆動アノテーションの可能性を実証している。
関連論文リスト
- VSRD++: Autolabeling for 3D Object Detection via Instance-Aware Volumetric Silhouette Rendering [18.77072205559739]
VSRD++はモノクル3Dオブジェクト検出のための弱い教師付きフレームワークである。
3Dアノテーションへの依存を排除し、ニューラルフィールドベースのボリュームレンダリングを活用する。
モノクロ3Dオブジェクト検出フェーズでは、最適化された3Dバウンディングボックスが擬似ラベルとして機能する。
論文 参考訳(メタデータ) (2025-12-01T01:28:35Z) - 3D Aware Region Prompted Vision Language Model [99.4106711584584]
SR-3Dは、共有された視覚トークン空間を介して、シングルビュー2D画像とマルチビュー3Dデータを接続する。
SR-3Dはフレキシブルな領域プロンプトをサポートしており、バウンディングボックス、任意のフレーム上のセグメンテーションマスク、あるいは直接3Dでアノテートできる。
論文 参考訳(メタデータ) (2025-09-16T17:59:06Z) - 3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection [62.57179069154312]
最初のエンドツーエンド3Dモノクロオープンセットオブジェクト検出器(3D-MOOD)を紹介する。
私たちはオープンセットの2D検出を設計した3Dバウンディングボックスヘッドを通して3D空間に持ち上げます。
対象クエリを事前に幾何学的に条件付けし,様々な場面で3次元推定の一般化を克服する。
論文 参考訳(メタデータ) (2025-07-31T13:56:41Z) - VSRD: Instance-Aware Volumetric Silhouette Rendering for Weakly Supervised 3D Object Detection [11.061100776969383]
モノクロ3Dオブジェクト検出は3Dシーン理解において重要な課題となる。
既存の手法は、豊富な3Dラベルを用いた教師あり学習に大きく依存している。
本稿では,VSRDという3次元オブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-29T20:43:55Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - RenderOcc: Vision-Centric 3D Occupancy Prediction with 2D Rendering
Supervision [36.15913507034939]
RenderOccは2次元ラベルのみを用いて3次元占有モデルを訓練するための新しいパラダイムである。
具体的には、マルチビュー画像からNeRFスタイルの3Dボリューム表現を抽出する。
ボリュームレンダリング技術を用いて2次元レンダリングを確立することにより,2次元セマンティクスや深度ラベルから直接の3D監視を可能にする。
論文 参考訳(メタデータ) (2023-09-18T06:08:15Z) - SL3D: Self-supervised-Self-labeled 3D Recognition [89.19932178712065]
自己教師付き自己ラベル型3D認識(SL3D)フレームワークを提案する。
SL3Dはクラスタリングと学習機能表現という2つの結合した目的を同時に解決する。
分類、オブジェクト検出、セマンティックセグメンテーションなど、さまざまな3D認識タスクに応用することができる。
論文 参考訳(メタデータ) (2022-10-30T11:08:25Z) - Gait Recognition in the Wild with Dense 3D Representations and A
Benchmark [86.68648536257588]
既存の歩行認識の研究は、制約されたシーンにおける人間の体のシルエットや骨格のような2D表現によって支配されている。
本稿では,野生における歩行認識のための高密度な3次元表現の探索を目的とする。
大規模な3D表現に基づく歩行認識データセットGait3Dを構築した。
論文 参考訳(メタデータ) (2022-04-06T03:54:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。