論文の概要: PanopticNeRF-360: Panoramic 3D-to-2D Label Transfer in Urban Scenes
- arxiv url: http://arxiv.org/abs/2309.10815v2
- Date: Tue, 03 Dec 2024 21:21:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:05:10.603858
- Title: PanopticNeRF-360: Panoramic 3D-to-2D Label Transfer in Urban Scenes
- Title(参考訳): PanopticNeRF-360:パノラマ3次元から2次元へのラベリング
- Authors: Xiao Fu, Tianrun Chen, Yichong Lu, Xiaowei Zhou, Andreas Geiger, Yiyi Liao,
- Abstract要約: 粗い3Dアノテーションとノイズの多い2Dセマンティックキューを組み合わせて高品質なパノプティカルラベルを生成する新しいアプローチであるPanopticNeRF-360を提案する。
実験では,KITTI-360データセット上でのラベル転送方式に対するPanopticNeRF-360の最先端性能を実証した。
- 参考スコア(独自算出の注目度): 54.49897326605168
- License:
- Abstract: Training perception systems for self-driving cars requires substantial 2D annotations that are labor-intensive to manual label. While existing datasets provide rich annotations on pre-recorded sequences, they fall short in labeling rarely encountered viewpoints, potentially hampering the generalization ability for perception models. In this paper, we present PanopticNeRF-360, a novel approach that combines coarse 3D annotations with noisy 2D semantic cues to generate high-quality panoptic labels and images from any viewpoint. Our key insight lies in exploiting the complementarity of 3D and 2D priors to mutually enhance geometry and semantics. Specifically, we propose to leverage coarse 3D bounding primitives and noisy 2D semantic and instance predictions to guide geometry optimization, by encouraging predicted labels to match panoptic pseudo ground truth. Simultaneously, the improved geometry assists in filtering 3D&2D annotation noise by fusing semantics in 3D space via a learned semantic field. To further enhance appearance, we combine MLP and hash grids to yield hybrid scene features, striking a balance between high-frequency appearance and contiguous semantics. Our experiments demonstrate PanopticNeRF-360's state-of-the-art performance over label transfer methods on the challenging urban scenes of the KITTI-360 dataset. Moreover, PanopticNeRF-360 enables omnidirectional rendering of high-fidelity, multi-view and spatiotemporally consistent appearance, semantic and instance labels. We make our code and data available at https://github.com/fuxiao0719/PanopticNeRF
- Abstract(参考訳): 自動運転車のための訓練用認識システムは、手動ラベルに労働集約的な相当な2Dアノテーションを必要とする。
既存のデータセットは、事前に記録されたシーケンスに豊富なアノテーションを提供するが、ほとんど遭遇しない視点のラベル付けに不足しており、認識モデルの一般化能力を妨げている可能性がある。
本稿では,粗い3Dアノテーションとノイズの多い2Dセマンティックキューを組み合わせて,高品質なパノプティカルラベルと画像を生成する新しいアプローチであるPanopticNeRF-360を提案する。
我々の重要な洞察は、幾何学と意味論を相互に強化するために、3Dと2Dの先行の相補性を利用することである。
具体的には、粗い3D境界プリミティブとノイズの多い2Dセマンティクスとインスタンス予測を利用して、予測ラベルにパンプト的な擬似基底真理を一致させることにより、幾何学的最適化を導くことを提案する。
同時に、改良された幾何学は、学習されたセマンティックフィールドを介して3次元空間にセマンティクスを融合させることで、3D&2Dアノテーションノイズのフィルタリングを支援する。
外観をさらに高めるため,MLPとハッシュグリッドを組み合わせることでハイブリッドシーンの特徴を生み出し,高周波外観と連続意味論のバランスを崩す。
実験では,KITTI-360データセットの挑戦的な都市シーンにおけるラベル転送方式に対するPanopticNeRF-360の最先端性能を実証した。
さらに、PanopticNeRF-360は、高忠実度、多視点、時空間的に一貫した外観、セマンティック、およびインスタンスラベルの全方向レンダリングを可能にする。
コードとデータはhttps://github.com/fuxiao0719/PanopticNeRFで公開しています。
関連論文リスト
- LeAP: Consistent multi-domain 3D labeling using Foundation Models [0.7919810878571297]
この研究は、LeAP(Label Any Pointcloud)を導入し、2D VFMを活用して、あらゆる種類のアプリケーションにおいて、任意のクラスの3Dデータを自動的にラベル付けする。
本手法は,手動ラベリングを使わずに,様々な分野にまたがる高品質な3Dセマンティックラベルを生成することができることを示す。
論文 参考訳(メタデータ) (2025-02-06T09:24:47Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
我々は、FreeGSが複雑なデータ前処理作業の負荷を回避しつつ、最先端のメソッドと互換性があることを示す。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - RenderOcc: Vision-Centric 3D Occupancy Prediction with 2D Rendering
Supervision [36.15913507034939]
RenderOccは2次元ラベルのみを用いて3次元占有モデルを訓練するための新しいパラダイムである。
具体的には、マルチビュー画像からNeRFスタイルの3Dボリューム表現を抽出する。
ボリュームレンダリング技術を用いて2次元レンダリングを確立することにより,2次元セマンティクスや深度ラベルから直接の3D監視を可能にする。
論文 参考訳(メタデータ) (2023-09-18T06:08:15Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - Panoptic NeRF: 3D-to-2D Label Transfer for Panoptic Urban Scene
Segmentation [48.677336052620895]
そこで本研究では,画素ごとの2Dセマンティックスとインスタンスラベルの取得を目的とした,新しい3D-to-2Dラベル転送手法であるPanoptic NeRFを提案する。
3D空間内での推論と2Dラベルへのレンダリングにより、我々の2Dセマンティクスとインスタンスラベルは、設計によって複数ビューに一貫性がある。
論文 参考訳(メタデータ) (2022-03-29T04:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。