論文の概要: Leveraging Automatic CAD Annotations for Supervised Learning in 3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2504.13580v1
- Date: Fri, 18 Apr 2025 09:33:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 16:24:08.106517
- Title: Leveraging Automatic CAD Annotations for Supervised Learning in 3D Scene Understanding
- Title(参考訳): 3次元シーン理解における教師付き学習のためのCADアノテーションの活用
- Authors: Yuchen Rao, Stefan Ainetter, Sinisa Stekovic, Vincent Lepetit, Friedrich Fraundorfer,
- Abstract要約: 合成CADモデルの自動検索によって生成されたデータは,教師付き深層学習モデルの訓練において,高品質な基底真理として利用できることを示す。
本結果は,アノテーションのコストを大幅に削減しつつ,モデル性能を向上させる自動3Dアノテーションの可能性を強調した。
3Dシーン理解における将来の研究を支援するため、トレーニングされたモデルとともにSCANnotate++と呼ばれるアノテーションをリリースします。
- 参考スコア(独自算出の注目度): 29.147693306652414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-level 3D scene understanding is essential in many applications. However, the challenges of generating accurate 3D annotations make development of deep learning models difficult. We turn to recent advancements in automatic retrieval of synthetic CAD models, and show that data generated by such methods can be used as high-quality ground truth for training supervised deep learning models. More exactly, we employ a pipeline akin to the one previously used to automatically annotate objects in ScanNet scenes with their 9D poses and CAD models. This time, we apply it to the recent ScanNet++ v1 dataset, which previously lacked such annotations. Our findings demonstrate that it is not only possible to train deep learning models on these automatically-obtained annotations but that the resulting models outperform those trained on manually annotated data. We validate this on two distinct tasks: point cloud completion and single-view CAD model retrieval and alignment. Our results underscore the potential of automatic 3D annotations to enhance model performance while significantly reducing annotation costs. To support future research in 3D scene understanding, we will release our annotations, which we call SCANnotate++, along with our trained models.
- Abstract(参考訳): ハイレベルな3Dシーン理解は多くのアプリケーションにおいて不可欠である。
しかし,正確な3Dアノテーション作成の課題は,ディープラーニングモデルの開発を困難にしている。
合成CADモデルの自動検索における最近の進歩を振り返り、そのような手法によって生成されたデータは、教師付きディープラーニングモデルのトレーニングに高品質な基底真理として利用できることを示す。
より正確には、以前ScanNetのシーンでオブジェクトに9DのポーズとCADモデルで自動的にアノテートするために使われたものに似たパイプラインを採用しています。
今回は、以前そのようなアノテーションが欠けていた最近のScanNet++ v1データセットに適用します。
以上の結果から,これらのアノテーションでディープラーニングモデルをトレーニングすることは可能であるだけでなく,手動で注釈付けしたデータでトレーニングしたモデルよりも優れていることが示唆された。
我々は、ポイントクラウド補完とシングルビューCADモデル検索とアライメントという2つの異なるタスクでこれを検証した。
本結果は,アノテーションのコストを大幅に削減しつつ,モデル性能を向上させる自動3Dアノテーションの可能性を強調した。
3Dシーン理解における将来の研究を支援するため、トレーニングされたモデルとともにSCANnotate++と呼ばれるアノテーションをリリースします。
関連論文リスト
- DINeMo: Learning Neural Mesh Models with no 3D Annotations [7.21992608540601]
カテゴリーレベルの3D/6Dポーズ推定は、総合的な3Dシーン理解に向けた重要なステップである。
最近の研究は、分析バイシンセサイザーの観点から、2Dおよび3Dタスクにアプローチするニューラルネットワークモデルについて検討している。
疑似対応を利用して3次元アノテーションを使わずにトレーニングした新しいニューラルネットワークモデルであるDINeMoを提案する。
論文 参考訳(メタデータ) (2025-03-26T04:23:53Z) - ZeroKey: Point-Level Reasoning and Zero-Shot 3D Keypoint Detection from Large Language Models [57.57832348655715]
3次元形状のキーポイント検出のための新しいゼロショット手法を提案する。
提案手法は,マルチモーダル大規模言語モデルに埋め込まれた豊富な知識を利用する。
論文 参考訳(メタデータ) (2024-12-09T08:31:57Z) - Open-Vocabulary High-Resolution 3D (OVHR3D) Data Segmentation and Annotation Framework [1.1280113914145702]
本研究の目的は,3次元セグメンテーションタスクのための包括的で効率的なフレームワークの設計と開発である。
このフレームワークはGrounding DINOとSegment Any Modelを統合し、3Dメッシュによる2D画像レンダリングの強化によって強化される。
論文 参考訳(メタデータ) (2024-12-09T07:39:39Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - Model2Scene: Learning 3D Scene Representation via Contrastive
Language-CAD Models Pre-training [105.3421541518582]
現在成功している3次元シーン認識法は、大規模アノテートされた点雲に依存している。
CAD(Computer-Aided Design)モデルと言語から自由な3Dシーン表現を学習する新しいパラダイムであるModel2Sceneを提案する。
Model2Sceneは、平均mAPが46.08%、ScanNetとS3DISのデータセットが55.49%という、ラベルなしの優れた3Dオブジェクトのサリエント検出をもたらす。
論文 参考訳(メタデータ) (2023-09-29T03:51:26Z) - Weakly Supervised 3D Object Detection with Multi-Stage Generalization [62.96670547848691]
擬似ラベル生成と多段階一般化を含むBA$2$-Detを導入する。
一般化の3つの段階、完全から部分へ、静的から動的へ、そして遠い距離へ進む。
BA$2$-Detは、KITTIデータセットの20%の相対的な改善を達成できる。
論文 参考訳(メタデータ) (2023-06-08T17:58:57Z) - Automatically Annotating Indoor Images with CAD Models via RGB-D Scans [36.52980906432878]
本稿では,RGB-Dスキャンに頼って,オブジェクトのCADモデルを用いた室内シーンの自動アノテート手法を提案する。
提案手法は,手動アノテーションと同程度の精度のアノテーションを検索し,手動で3Dデータに注釈を付けることなく,基礎的な真実として利用することができることを示す。
論文 参考訳(メタデータ) (2022-12-22T15:27:25Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。