論文の概要: PanopticNeRF-360: Panoramic 3D-to-2D Label Transfer in Urban Scenes
- arxiv url: http://arxiv.org/abs/2309.10815v1
- Date: Tue, 19 Sep 2023 17:54:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 13:02:48.613659
- Title: PanopticNeRF-360: Panoramic 3D-to-2D Label Transfer in Urban Scenes
- Title(参考訳): panopticnerf-360:パノラマ3dから2dへのラベル転送
- Authors: Xiao Fu, Shangzhan Zhang, Tianrun Chen, Yichong Lu, Xiaowei Zhou,
Andreas Geiger, Yiyi Liao
- Abstract要約: 自動運転車の認識システムの訓練には、相当なアノテーションが必要である。
既存のデータセットは、事前に記録されたシーケンスに対して豊富なアノテーションを提供するが、ほとんど遭遇しない視点のラベル付けに不足している。
粗い3Dアノテーションとノイズの多い2Dセマンティックキューを組み合わせて一貫したパノプティカルラベルを生成する新しいアプローチであるPanopticNeRF-360を提案する。
- 参考スコア(独自算出の注目度): 56.297018535422524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training perception systems for self-driving cars requires substantial
annotations. However, manual labeling in 2D images is highly labor-intensive.
While existing datasets provide rich annotations for pre-recorded sequences,
they fall short in labeling rarely encountered viewpoints, potentially
hampering the generalization ability for perception models. In this paper, we
present PanopticNeRF-360, a novel approach that combines coarse 3D annotations
with noisy 2D semantic cues to generate consistent panoptic labels and
high-quality images from any viewpoint. Our key insight lies in exploiting the
complementarity of 3D and 2D priors to mutually enhance geometry and semantics.
Specifically, we propose to leverage noisy semantic and instance labels in both
3D and 2D spaces to guide geometry optimization. Simultaneously, the improved
geometry assists in filtering noise present in the 3D and 2D annotations by
merging them in 3D space via a learned semantic field. To further enhance
appearance, we combine MLP and hash grids to yield hybrid scene features,
striking a balance between high-frequency appearance and predominantly
contiguous semantics. Our experiments demonstrate PanopticNeRF-360's
state-of-the-art performance over existing label transfer methods on the
challenging urban scenes of the KITTI-360 dataset. Moreover, PanopticNeRF-360
enables omnidirectional rendering of high-fidelity, multi-view and
spatiotemporally consistent appearance, semantic and instance labels. We make
our code and data available at https://github.com/fuxiao0719/PanopticNeRF
- Abstract(参考訳): 自動運転車の認識システムの訓練には、相当なアノテーションが必要である。
しかし、手作業による2d画像のラベリングは非常に手間がかかる。
既存のデータセットは事前記録されたシーケンスに対してリッチなアノテーションを提供するが、めったに遭遇しない視点のラベル付けには不足しており、知覚モデルの一般化能力を妨げる可能性がある。
本稿では,粗い3dアノテーションとノイズの多い2d意味的手がかりを組み合わせた新しいアプローチであるpanopticnerf-360を提案する。
我々の重要な洞察は、幾何学と意味論を相互に強化するために、3Dと2Dの先行の相補性を利用することである。
具体的には,3次元空間と2次元空間の両方でノイズの多いセマンティクスラベルとインスタンスラベルを活用し,幾何最適化を導くことを提案する。
同時に、改良された幾何学は3Dおよび2Dアノテーションに存在するノイズを、学習されたセマンティックフィールドを介して3D空間にマージすることでフィルタリングする。
外観をさらに高めるため,MLPとハッシュグリッドを組み合わせることでハイブリッドシーンの特徴を生み出し,高周波の外観と主に連続した意味論のバランスを崩す。
実験では,KITTI-360データセットの都市環境における既存のラベル転送方式に対して,PanopticNeRF-360の最先端性能を実証した。
さらに、PanopticNeRF-360は高忠実度、多視点、時空間的に一貫した外観、セマンティック、インスタンスラベルを全方向レンダリングできる。
コードとデータはhttps://github.com/fuxiao0719/panopticnerfで利用可能です。
関連論文リスト
- HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - RenderOcc: Vision-Centric 3D Occupancy Prediction with 2D Rendering
Supervision [36.15913507034939]
RenderOccは2次元ラベルのみを用いて3次元占有モデルを訓練するための新しいパラダイムである。
具体的には、マルチビュー画像からNeRFスタイルの3Dボリューム表現を抽出する。
ボリュームレンダリング技術を用いて2次元レンダリングを確立することにより,2次元セマンティクスや深度ラベルから直接の3D監視を可能にする。
論文 参考訳(メタデータ) (2023-09-18T06:08:15Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - Learning 3D Semantics from Pose-Noisy 2D Images with Hierarchical Full
Attention Network [17.58032517457836]
ポーズエラーを含む2次元多視点画像観測から3次元ポイントクラウドの意味を学習するための新しいフレームワークを提案する。
階層型フルアテンションネットワーク(HiFANet)は、パッチ、バッグ・オブ・フレーム、ポイント間セマンティックキューを逐次集約するように設計されている。
実験の結果,提案フレームワークは既存の3Dポイント・クラウド・ベースの手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-17T20:24:26Z) - Panoptic NeRF: 3D-to-2D Label Transfer for Panoptic Urban Scene
Segmentation [48.677336052620895]
そこで本研究では,画素ごとの2Dセマンティックスとインスタンスラベルの取得を目的とした,新しい3D-to-2Dラベル転送手法であるPanoptic NeRFを提案する。
3D空間内での推論と2Dラベルへのレンダリングにより、我々の2Dセマンティクスとインスタンスラベルは、設計によって複数ビューに一貫性がある。
論文 参考訳(メタデータ) (2022-03-29T04:16:40Z) - Bidirectional Projection Network for Cross Dimension Scene Understanding [69.29443390126805]
本稿では,2次元および3次元の連立推論のための縦方向投影網(BPNet)をエンドツーエンドに提示する。
emphBPM、補完的な2D、および3D情報は、複数のアーキテクチャレベルで相互に相互作用することができる。
我々のemphBPNetは2次元および3次元セマンティックセマンティックセグメンテーションのためのScanNetV2ベンチマークで最高性能を達成した。
論文 参考訳(メタデータ) (2021-03-26T08:31:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。