論文の概要: Panoptic Lifting for 3D Scene Understanding with Neural Fields
- arxiv url: http://arxiv.org/abs/2212.09802v1
- Date: Mon, 19 Dec 2022 19:15:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 14:28:43.681694
- Title: Panoptic Lifting for 3D Scene Understanding with Neural Fields
- Title(参考訳): ニューラルネットワークを用いた3次元シーン理解のためのパノプティカルリフティング
- Authors: Yawar Siddiqui, Lorenzo Porzi, Samuel Rota Bul\'o, Norman M\"uller,
Matthias Nie{\ss}ner, Angela Dai, Peter Kontschieder
- Abstract要約: そこで本研究では,撮影シーンの画像からパノプティカル3D表現を学習するための新しい手法を提案する。
本手法では,事前学習ネットワークから推定される2次元空間分割マスクのみを必要とする。
実験結果は、Hypersim、Replica、ScanNetデータセットに挑戦するアプローチを検証する。
- 参考スコア(独自算出の注目度): 32.59498558663363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Panoptic Lifting, a novel approach for learning panoptic 3D
volumetric representations from images of in-the-wild scenes. Once trained, our
model can render color images together with 3D-consistent panoptic segmentation
from novel viewpoints.
Unlike existing approaches which use 3D input directly or indirectly, our
method requires only machine-generated 2D panoptic segmentation masks inferred
from a pre-trained network. Our core contribution is a panoptic lifting scheme
based on a neural field representation that generates a unified and multi-view
consistent, 3D panoptic representation of the scene. To account for
inconsistencies of 2D instance identifiers across views, we solve a linear
assignment with a cost based on the model's current predictions and the
machine-generated segmentation masks, thus enabling us to lift 2D instances to
3D in a consistent way. We further propose and ablate contributions that make
our method more robust to noisy, machine-generated labels, including test-time
augmentations for confidence estimates, segment consistency loss, bounded
segmentation fields, and gradient stopping.
Experimental results validate our approach on the challenging Hypersim,
Replica, and ScanNet datasets, improving by 8.4, 13.8, and 10.6% in scene-level
PQ over state of the art.
- Abstract(参考訳): 本研究では,野生場面の画像からパンオプティカルな3次元容積表現を学習するための新しい手法であるpanopticliftを提案する。
トレーニングが完了すると、新しい視点からカラー画像と3D一貫性のあるパノプティクスのセグメンテーションを同時にレンダリングできる。
直接あるいは間接的に3D入力を使用する既存のアプローチとは異なり,本手法では,事前学習ネットワークから推定される2次元パノプティック・セグメンテーションマスクのみを必要とする。
我々のコアコントリビューションは、シーンの統一された多視点の3次元パノプティクス表現を生成するニューラルネットワーク表現に基づくパノプティカルリフト方式である。
ビュー間の2dインスタンス識別子の不整合を考慮し、モデルの現在の予測とマシン生成セグメンテーションマスクに基づくコストで線形割り当てを解決し、2dインスタンスを一貫した方法で3dにリフトすることができる。
さらに,信頼度推定のためのテスト時間拡張,セグメント一貫性損失,境界セグメンテーションフィールド,勾配停止など,ノイズの多いマシン生成ラベルに対してより堅牢な貢献を提案する。
実験結果は、Hypersim、Replica、ScanNetのデータセットに対する我々のアプローチを検証し、最先端のシーンレベルのPQにおいて8.4、13.8、および10.6%改善した。
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - Efficient 3D Instance Mapping and Localization with Neural Fields [39.73128916618561]
本稿では,RGB画像の列から3次元インスタンスセグメンテーションの暗黙的なシーン表現を学習する問題に取り組む。
本稿では,新しい視点から3Dインスタンスセグメンテーションマスクを描画するニューラルラベルフィールドを効率的に学習する新しいフレームワークである3DIMLを紹介する。
論文 参考訳(メタデータ) (2024-03-28T19:25:25Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Next3D: Generative Neural Texture Rasterization for 3D-Aware Head
Avatars [36.4402388864691]
3D-Aware Generative Adversarial Network (GANs) は, 単一視点2D画像のコレクションのみを用いて, 高忠実かつ多視点の顔画像を合成する。
最近の研究は、3D Morphable Face Model (3DMM) を用いて、生成放射場における変形を明示的または暗黙的に記述している。
本研究では,非構造化2次元画像から生成的,高品質,かつ3D一貫性のある顔アバターの教師なし学習のための新しい3D GANフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-21T06:40:46Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Neural Volumetric Object Selection [126.04480613166194]
マルチプレーン画像(MPI)やニューラルレイディアンスフィールド(NeRF)のような,神経体積の3次元表現における物体の選択手法を提案する。
提案手法では,前景と背景の2次元ユーザを1つの視点で記述し,対象物の3次元セグメンテーションを自動的に推定する。
論文 参考訳(メタデータ) (2022-05-30T08:55:20Z) - Weakly Supervised Volumetric Image Segmentation with Deformed Templates [80.04326168716493]
対象対象物の表面にスパースな3次元点のセットのみを提供する必要があるという意味で、真に弱い教師付きアプローチを提案する。
監督コストの削減により、3Dの弱スーパービジョンに対する従来のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-07T22:09:34Z) - Semantic Implicit Neural Scene Representations With Semi-Supervised
Training [47.61092265963234]
その結果,暗黙的なシーン表現がポイントごとのセマンティックセマンティックセグメンテーションに活用できることが示唆された。
我々の手法は単純で汎用的で、数個のラベル付き2Dセグメンテーションマスクしか必要としない。
意味的に認識された暗黙的なニューラルシーン表現のための2つの新しい応用を探索する。
論文 参考訳(メタデータ) (2020-03-28T00:43:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。