論文の概要: LeAP: Consistent multi-domain 3D labeling using Foundation Models
- arxiv url: http://arxiv.org/abs/2502.03901v1
- Date: Thu, 06 Feb 2025 09:24:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:31:39.528806
- Title: LeAP: Consistent multi-domain 3D labeling using Foundation Models
- Title(参考訳): LeAP: Foundation Modelsを用いた一貫性のあるマルチドメイン3Dラベリング
- Authors: Simon Gebraad, Andras Palffy, Holger Caesar,
- Abstract要約: この研究は、LeAP(Label Any Pointcloud)を導入し、2D VFMを活用して、あらゆる種類のアプリケーションにおいて、任意のクラスの3Dデータを自動的にラベル付けする。
本手法は,手動ラベリングを使わずに,様々な分野にまたがる高品質な3Dセマンティックラベルを生成することができることを示す。
- 参考スコア(独自算出の注目度): 0.7919810878571297
- License:
- Abstract: Availability of datasets is a strong driver for research on 3D semantic understanding, and whilst obtaining unlabeled 3D point cloud data is straightforward, manually annotating this data with semantic labels is time-consuming and costly. Recently, Vision Foundation Models (VFMs) enable open-set semantic segmentation on camera images, potentially aiding automatic labeling. However,VFMs for 3D data have been limited to adaptations of 2D models, which can introduce inconsistencies to 3D labels. This work introduces Label Any Pointcloud (LeAP), leveraging 2D VFMs to automatically label 3D data with any set of classes in any kind of application whilst ensuring label consistency. Using a Bayesian update, point labels are combined into voxels to improve spatio-temporal consistency. A novel 3D Consistency Network (3D-CN) exploits 3D information to further improve label quality. Through various experiments, we show that our method can generate high-quality 3D semantic labels across diverse fields without any manual labeling. Further, models adapted to new domains using our labels show up to a 34.2 mIoU increase in semantic segmentation tasks.
- Abstract(参考訳): データセットの可用性は3Dセマンティック理解の研究にとって強力な要因であり、ラベルなしの3Dポイントクラウドデータを取得することは簡単だが、手動でセマンティックラベルでこのデータを注釈付けするのは時間と費用がかかる。
近年、Vision Foundation Models (VFM) は、カメライメージのオープンセットセマンティックセマンティックセグメンテーションを可能にし、自動ラベリングを支援する可能性がある。
しかし、3Dデータに対するVFMは、3Dラベルに矛盾をもたらす可能性のある2Dモデルの適応に限られている。
この作業では、ラベルの一貫性を確保しながら、2D VFMを活用して、任意のタイプのクラスで自動的に3Dデータをラベル付けするLabel Any Pointcloud(LeAP)を導入している。
ベイズ更新を使用すると、点ラベルをボクセルに結合して時空間整合性を改善する。
新たな3D一貫性ネットワーク(3D-CN)は3D情報を利用してラベルの品質をさらに向上する。
様々な実験により,手動ラベリングを使わずに,多分野にわたる高品質な3Dセマンティックラベルを生成できることを示す。
さらに、ラベルを用いた新しいドメインに適応したモデルでは、セマンティックセグメンテーションタスクの34.2 mIoUの増加が見られる。
関連論文リスト
- 3DSES: an indoor Lidar point cloud segmentation dataset with real and pseudo-labels from a 3D model [1.7249361224827533]
3DSESは,427m2の高密度TLS着色点雲の新しいデータセットである。
3DSESにはユニークな二重アノテーション形式がある: 意味ラベルは、建物の完全な3DCADモデルと共にポイントレベルでアノテートされる。
モデルとクラウドのアライメントは、ポイントクラウド上の擬似ラベルをa>95%の精度で生成できることを示します。
論文 参考訳(メタデータ) (2025-01-29T10:09:32Z) - Cross-Modal Self-Training: Aligning Images and Pointclouds to Learn Classification without Labels [69.55622471172941]
CLIPのような大規模ビジョン2D視覚言語モデルは、一般化可能な(オープン語彙)3D視覚モデルを学ぶために3Dエンコーダと整列することができる。
ゼロショット3Dビジョンモデルのラベルなし分類性能を改善するために、クロスモーダル自己訓練(Cross-MoST: Cross-Modal Self-Training)を提案する。
論文 参考訳(メタデータ) (2024-04-15T21:30:50Z) - Weakly-Supervised 3D Scene Graph Generation via Visual-Linguistic Assisted Pseudo-labeling [9.440800948514449]
視覚言語支援擬似ラベルを用いた弱教師付き3次元シーングラフ生成法を提案する。
我々の3D-VLAPは、テキストと2D画像のセマンティクスを調整するために、現在の大規模視覚言語モデルの優れた能力を利用する。
エッジ自己アテンションに基づくグラフニューラルネットワークを設計し、3Dポイントクラウドシーンのシーングラフを生成する。
論文 参考訳(メタデータ) (2024-04-03T07:30:09Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - LABELMAKER: Automatic Semantic Label Generation from RGB-D Trajectories [59.14011485494713]
この研究は、完全に自動化された2D/3Dラベリングフレームワークを導入し、RGB-Dスキャンのラベルを同等(あるいはそれ以上)の精度で生成できる。
我々は、ScanNetデータセットのラベルを大幅に改善し、これまでラベル付けされていなかったARKitScenesデータセットを自動的にラベル付けすることで、LabelMakerパイプラインの有効性を実証する。
論文 参考訳(メタデータ) (2023-11-20T20:40:24Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - PanopticNeRF-360: Panoramic 3D-to-2D Label Transfer in Urban Scenes [54.49897326605168]
粗い3Dアノテーションとノイズの多い2Dセマンティックキューを組み合わせて高品質なパノプティカルラベルを生成する新しいアプローチであるPanopticNeRF-360を提案する。
実験では,KITTI-360データセット上でのラベル転送方式に対するPanopticNeRF-360の最先端性能を実証した。
論文 参考訳(メタデータ) (2023-09-19T17:54:22Z) - Panoptic NeRF: 3D-to-2D Label Transfer for Panoptic Urban Scene
Segmentation [48.677336052620895]
そこで本研究では,画素ごとの2Dセマンティックスとインスタンスラベルの取得を目的とした,新しい3D-to-2Dラベル転送手法であるPanoptic NeRFを提案する。
3D空間内での推論と2Dラベルへのレンダリングにより、我々の2Dセマンティクスとインスタンスラベルは、設計によって複数ビューに一貫性がある。
論文 参考訳(メタデータ) (2022-03-29T04:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。