論文の概要: Learning 3D Semantic Segmentation with only 2D Image Supervision
- arxiv url: http://arxiv.org/abs/2110.11325v1
- Date: Thu, 21 Oct 2021 17:56:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 18:15:04.819381
- Title: Learning 3D Semantic Segmentation with only 2D Image Supervision
- Title(参考訳): 2次元画像監督のみによる3次元意味セグメンテーションの学習
- Authors: Kyle Genova, Xiaoqi Yin, Abhijit Kundu, Caroline Pantofaru, Forrester
Cole, Avneesh Sud, Brian Brewington, Brian Shucker, Thomas Funkhouser
- Abstract要約: 多視点融合を用いた2次元意味画像分割から派生した擬似ラベルから3次元モデルを訓練する。
提案するネットワークアーキテクチャである2D3DNetは,5大陸20都市で撮影されたライダーと画像を備えた新しい都市データセットの実験において,ベースラインよりもはるかに優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 18.785840615548473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the recent growth of urban mapping and autonomous driving efforts, there
has been an explosion of raw 3D data collected from terrestrial platforms with
lidar scanners and color cameras. However, due to high labeling costs,
ground-truth 3D semantic segmentation annotations are limited in both quantity
and geographic diversity, while also being difficult to transfer across
sensors. In contrast, large image collections with ground-truth semantic
segmentations are readily available for diverse sets of scenes. In this paper,
we investigate how to use only those labeled 2D image collections to supervise
training 3D semantic segmentation models. Our approach is to train a 3D model
from pseudo-labels derived from 2D semantic image segmentations using multiview
fusion. We address several novel issues with this approach, including how to
select trusted pseudo-labels, how to sample 3D scenes with rare object
categories, and how to decouple input features from 2D images from
pseudo-labels during training. The proposed network architecture, 2D3DNet,
achieves significantly better performance (+6.2-11.4 mIoU) than baselines
during experiments on a new urban dataset with lidar and images captured in 20
cities across 5 continents.
- Abstract(参考訳): 最近の都市地図と自動運転の取り組みにより、lidarスキャナーとカラーカメラを備えた地上プラットフォームから収集された生の3dデータが爆発的に増加した。
しかし,高ラベリングコストのため,地中3次元セマンティックセマンティックアノテーションは量的・地理的多様性に制限があり,センサ間の移動も困難である。
対照的に、地上意味セグメンテーションを持つ大規模な画像コレクションは、様々なシーンのセットで容易に利用可能である。
本稿では,ラベル付き2次元画像コレクションのみを使用して3次元意味セグメンテーションモデルのトレーニングを監督する方法について検討する。
本研究では,マルチビュー融合を用いた2次元意味画像セグメンテーションから得られた擬似ラベルから3次元モデルを学習する。
このアプローチでは,信頼された擬似ラベルの選択方法,希少なオブジェクトカテゴリを持つ3Dシーンのサンプリング方法,トレーニング中に擬似ラベルから2D画像から入力特徴を分離する方法など,いくつかの新しい課題に対処する。
提案したネットワークアーキテクチャである2D3DNetは、5大陸20都市で撮影されたライダーと画像を備えた新しい都市データセットの実験において、ベースラインよりもはるかに優れたパフォーマンス(+6.2-11.4 mIoU)を達成する。
関連論文リスト
- ImOV3D: Learning Open-Vocabulary Point Clouds 3D Object Detection from Only 2D Images [19.02348585677397]
Open-vocabulary 3D object Detection (OV-3Det) は、トレーニングフェーズ中にラベル付けされたベースカテゴリの限られた数を超えて一般化することを目的としている。
最大のボトルネックは、注釈付き3Dデータの不足であるのに対して、2D画像データセットは豊富で豊富な注釈付きである。
画像と点雲(PC)の両方を含む擬似マルチモーダル表現を利用してモダリティギャップを埋める新しいフレームワークImOV3Dを提案する。
論文 参考訳(メタデータ) (2024-10-31T15:02:05Z) - SAM-guided Graph Cut for 3D Instance Segmentation [60.75119991853605]
本稿では,3次元画像情報と多視点画像情報の同時利用による3次元インスタンス分割の課題に対処する。
本稿では,3次元インスタンスセグメンテーションのための2次元セグメンテーションモデルを効果的に活用する新しい3D-to-2Dクエリフレームワークを提案する。
本手法は,ロバストなセグメンテーション性能を実現し,異なるタイプのシーンにまたがる一般化を実現する。
論文 参考訳(メタデータ) (2023-12-13T18:59:58Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - Learning Multi-View Aggregation In the Wild for Large-Scale 3D Semantic
Segmentation [3.5939555573102853]
近年の3次元セマンティックセグメンテーションの研究は、各モータリティを専用ネットワークで処理することで、画像と点雲の相乗効果を活用することを提案する。
任意の位置で撮影された画像から特徴をマージするために,3Dポイントの視聴条件を利用したエンドツーエンドのトレーニング可能な多視点アグリゲーションモデルを提案する。
本手法は,標準的な2Dネットワークと3Dネットワークを組み合わせることで,カラー化された点群とハイブリッドな2D/3Dネットワーク上での3Dモデルの性能を向上する。
論文 参考訳(メタデータ) (2022-04-15T17:10:48Z) - Interactive Object Segmentation in 3D Point Clouds [27.88495480980352]
本稿では,ユーザが直接3Dポイントクラウドと対話する対話型3Dオブジェクトセグメンテーション手法を提案する。
私たちのモデルは、ターゲットドメインからのトレーニングデータを必要としない。
異なるデータ特性と異なるオブジェクトクラスを持つ他のいくつかのデータセットでうまく機能する。
論文 参考訳(メタデータ) (2022-04-14T18:31:59Z) - Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data [80.14669385741202]
本稿では,自律運転データに適した3次元知覚モデルのための自己教師付き事前学習手法を提案する。
我々は、自動走行装置における同期・校正画像とLidarセンサーの可用性を活用している。
私たちのメソッドは、ポイントクラウドや画像アノテーションを一切必要としません。
論文 参考訳(メタデータ) (2022-03-30T12:40:30Z) - Panoptic NeRF: 3D-to-2D Label Transfer for Panoptic Urban Scene
Segmentation [48.677336052620895]
そこで本研究では,画素ごとの2Dセマンティックスとインスタンスラベルの取得を目的とした,新しい3D-to-2Dラベル転送手法であるPanoptic NeRFを提案する。
3D空間内での推論と2Dラベルへのレンダリングにより、我々の2Dセマンティクスとインスタンスラベルは、設計によって複数ビューに一貫性がある。
論文 参考訳(メタデータ) (2022-03-29T04:16:40Z) - Data Efficient 3D Learner via Knowledge Transferred from 2D Model [30.077342050473515]
我々は、RGB-D画像を介して強力な2Dモデルから知識を伝達することで、3Dタスクのデータ不足に対処する。
擬似ラベルを用いたRGB-D画像の強化には,2次元画像の強いセマンティック・セマンティック・セマンティック・セマンティック・セマンティクス・モデルを用いる。
提案手法は,3次元ラベルの効率向上に適した既存の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2022-03-16T09:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。