論文の概要: PanopticNeRF-360: Panoramic 3D-to-2D Label Transfer in Urban Scenes
- arxiv url: http://arxiv.org/abs/2309.10815v1
- Date: Tue, 19 Sep 2023 17:54:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 13:02:48.613659
- Title: PanopticNeRF-360: Panoramic 3D-to-2D Label Transfer in Urban Scenes
- Title(参考訳): panopticnerf-360:パノラマ3dから2dへのラベル転送
- Authors: Xiao Fu, Shangzhan Zhang, Tianrun Chen, Yichong Lu, Xiaowei Zhou,
Andreas Geiger, Yiyi Liao
- Abstract要約: 自動運転車の認識システムの訓練には、相当なアノテーションが必要である。
既存のデータセットは、事前に記録されたシーケンスに対して豊富なアノテーションを提供するが、ほとんど遭遇しない視点のラベル付けに不足している。
粗い3Dアノテーションとノイズの多い2Dセマンティックキューを組み合わせて一貫したパノプティカルラベルを生成する新しいアプローチであるPanopticNeRF-360を提案する。
- 参考スコア(独自算出の注目度): 56.297018535422524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training perception systems for self-driving cars requires substantial
annotations. However, manual labeling in 2D images is highly labor-intensive.
While existing datasets provide rich annotations for pre-recorded sequences,
they fall short in labeling rarely encountered viewpoints, potentially
hampering the generalization ability for perception models. In this paper, we
present PanopticNeRF-360, a novel approach that combines coarse 3D annotations
with noisy 2D semantic cues to generate consistent panoptic labels and
high-quality images from any viewpoint. Our key insight lies in exploiting the
complementarity of 3D and 2D priors to mutually enhance geometry and semantics.
Specifically, we propose to leverage noisy semantic and instance labels in both
3D and 2D spaces to guide geometry optimization. Simultaneously, the improved
geometry assists in filtering noise present in the 3D and 2D annotations by
merging them in 3D space via a learned semantic field. To further enhance
appearance, we combine MLP and hash grids to yield hybrid scene features,
striking a balance between high-frequency appearance and predominantly
contiguous semantics. Our experiments demonstrate PanopticNeRF-360's
state-of-the-art performance over existing label transfer methods on the
challenging urban scenes of the KITTI-360 dataset. Moreover, PanopticNeRF-360
enables omnidirectional rendering of high-fidelity, multi-view and
spatiotemporally consistent appearance, semantic and instance labels. We make
our code and data available at https://github.com/fuxiao0719/PanopticNeRF
- Abstract(参考訳): 自動運転車の認識システムの訓練には、相当なアノテーションが必要である。
しかし、手作業による2d画像のラベリングは非常に手間がかかる。
既存のデータセットは事前記録されたシーケンスに対してリッチなアノテーションを提供するが、めったに遭遇しない視点のラベル付けには不足しており、知覚モデルの一般化能力を妨げる可能性がある。
本稿では,粗い3dアノテーションとノイズの多い2d意味的手がかりを組み合わせた新しいアプローチであるpanopticnerf-360を提案する。
我々の重要な洞察は、幾何学と意味論を相互に強化するために、3Dと2Dの先行の相補性を利用することである。
具体的には,3次元空間と2次元空間の両方でノイズの多いセマンティクスラベルとインスタンスラベルを活用し,幾何最適化を導くことを提案する。
同時に、改良された幾何学は3Dおよび2Dアノテーションに存在するノイズを、学習されたセマンティックフィールドを介して3D空間にマージすることでフィルタリングする。
外観をさらに高めるため,MLPとハッシュグリッドを組み合わせることでハイブリッドシーンの特徴を生み出し,高周波の外観と主に連続した意味論のバランスを崩す。
実験では,KITTI-360データセットの都市環境における既存のラベル転送方式に対して,PanopticNeRF-360の最先端性能を実証した。
さらに、PanopticNeRF-360は高忠実度、多視点、時空間的に一貫した外観、セマンティック、インスタンスラベルを全方向レンダリングできる。
コードとデータはhttps://github.com/fuxiao0719/panopticnerfで利用可能です。
関連論文リスト
- Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [81.68608983602581]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance
Fields [73.97131748433212]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - RenderOcc: Vision-Centric 3D Occupancy Prediction with 2D Rendering
Supervision [36.15913507034939]
RenderOccは2次元ラベルのみを用いて3次元占有モデルを訓練するための新しいパラダイムである。
具体的には、マルチビュー画像からNeRFスタイルの3Dボリューム表現を抽出する。
ボリュームレンダリング技術を用いて2次元レンダリングを確立することにより,2次元セマンティクスや深度ラベルから直接の3D監視を可能にする。
論文 参考訳(メタデータ) (2023-09-18T06:08:15Z) - Magic123: One Image to High-Quality 3D Object Generation Using Both 2D
and 3D Diffusion Priors [104.79392615848109]
Magic123は、高品質でテクスチャ化された3Dメッシュのための、2段階の粗大なアプローチである。
最初の段階では、粗い幾何学を生成するために、神経放射場を最適化する。
第2段階では、視覚的に魅力的なテクスチャを持つ高分解能メッシュを生成するために、メモリ効率のよい微分可能なメッシュ表現を採用する。
論文 参考訳(メタデータ) (2023-06-30T17:59:08Z) - Learning 3D Semantics from Pose-Noisy 2D Images with Hierarchical Full
Attention Network [17.58032517457836]
ポーズエラーを含む2次元多視点画像観測から3次元ポイントクラウドの意味を学習するための新しいフレームワークを提案する。
階層型フルアテンションネットワーク(HiFANet)は、パッチ、バッグ・オブ・フレーム、ポイント間セマンティックキューを逐次集約するように設計されている。
実験の結果,提案フレームワークは既存の3Dポイント・クラウド・ベースの手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-17T20:24:26Z) - Panoptic NeRF: 3D-to-2D Label Transfer for Panoptic Urban Scene
Segmentation [48.677336052620895]
そこで本研究では,画素ごとの2Dセマンティックスとインスタンスラベルの取得を目的とした,新しい3D-to-2Dラベル転送手法であるPanoptic NeRFを提案する。
3D空間内での推論と2Dラベルへのレンダリングにより、我々の2Dセマンティクスとインスタンスラベルは、設計によって複数ビューに一貫性がある。
論文 参考訳(メタデータ) (2022-03-29T04:16:40Z) - Bidirectional Projection Network for Cross Dimension Scene Understanding [69.29443390126805]
本稿では,2次元および3次元の連立推論のための縦方向投影網(BPNet)をエンドツーエンドに提示する。
emphBPM、補完的な2D、および3D情報は、複数のアーキテクチャレベルで相互に相互作用することができる。
我々のemphBPNetは2次元および3次元セマンティックセマンティックセグメンテーションのためのScanNetV2ベンチマークで最高性能を達成した。
論文 参考訳(メタデータ) (2021-03-26T08:31:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。