論文の概要: Efficient 3D Instance Mapping and Localization with Neural Fields
- arxiv url: http://arxiv.org/abs/2403.19797v2
- Date: Mon, 1 Apr 2024 02:57:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 13:15:05.934684
- Title: Efficient 3D Instance Mapping and Localization with Neural Fields
- Title(参考訳): ニューラルネットワークを用いた効率的な3次元インスタンスマッピングと位置決め
- Authors: George Tang, Krishna Murthy Jatavallabhula, Antonio Torralba,
- Abstract要約: 3DIMLは、ビュー一貫性のあるインスタンスセグメンテーションマスクを生成するためにラベルフィールドを効率的に学習する新しいフレームワークである。
ReplicaとScanNetのデータセットから3DIMLを評価する。
- 参考スコア(独自算出の注目度): 39.73128916618561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We tackle the problem of learning an implicit scene representation for 3D instance segmentation from a sequence of posed RGB images. Towards this, we introduce 3DIML, a novel framework that efficiently learns a label field that may be rendered from novel viewpoints to produce view-consistent instance segmentation masks. 3DIML significantly improves upon training and inference runtimes of existing implicit scene representation based methods. Opposed to prior art that optimizes a neural field in a self-supervised manner, requiring complicated training procedures and loss function design, 3DIML leverages a two-phase process. The first phase, InstanceMap, takes as input 2D segmentation masks of the image sequence generated by a frontend instance segmentation model, and associates corresponding masks across images to 3D labels. These almost view-consistent pseudolabel masks are then used in the second phase, InstanceLift, to supervise the training of a neural label field, which interpolates regions missed by InstanceMap and resolves ambiguities. Additionally, we introduce InstanceLoc, which enables near realtime localization of instance masks given a trained label field and an off-the-shelf image segmentation model by fusing outputs from both. We evaluate 3DIML on sequences from the Replica and ScanNet datasets and demonstrate 3DIML's effectiveness under mild assumptions for the image sequences. We achieve a large practical speedup over existing implicit scene representation methods with comparable quality, showcasing its potential to facilitate faster and more effective 3D scene understanding.
- Abstract(参考訳): 本稿では,RGB画像の列から3次元インスタンスセグメンテーションの暗黙的なシーン表現を学習する問題に取り組む。
そこで本研究では,新しい視点からレンダリング可能なラベルフィールドを効率よく学習し,ビュー一貫性のあるインスタンスセグメンテーションマスクを生成する3DIMLを提案する。
3DIMLは、既存の暗黙のシーン表現ベースのメソッドのトレーニングと推論ランタイムを大幅に改善する。
3DIMLは、自己監督的な方法で神経野を最適化し、複雑な訓練手順と損失関数設計を必要とする先行技術に対して、2段階のプロセスを活用する。
第1フェーズであるInstanceMapは、フロントエンドインスタンスセグメンテーションモデルによって生成された画像シーケンスの2Dセグメンテーションマスクとして入力され、画像間で対応するマスクを3Dラベルに関連付ける。
これらのほぼビューに一貫性のある擬似ラベルマスクは、第2フェーズの InstanceLift で、 InstanceMap が見逃した領域を補間し、あいまいさを解決するニューラルラベルフィールドのトレーニングを監督するために使用される。
さらに、トレーニングされたラベルフィールドとオフザシェルフイメージセグメンテーションモデルに与えられたインスタンスマスクのほぼリアルタイムなローカライズを可能にするインスタンスLocを導入する。
Replica と ScanNet のデータセットから 3DIML を推定し,画像シーケンスの軽度な仮定の下で 3DIML の有効性を実証した。
我々は,既存の暗黙のシーン表現手法を同等の品質で大幅に高速化し,より高速で効果的な3Dシーン理解を実現する可能性を示した。
関連論文リスト
- Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - PanopticRecon: Leverage Open-vocabulary Instance Segmentation for Zero-shot Panoptic Reconstruction [23.798691661418253]
シーンのRGB-D画像から新たなゼロショットパノビュート再構成手法を提案する。
我々は、高密度な一般化特徴の助けを借りて部分ラベルを伝播させることにより、両方の課題に取り組む。
本手法は,屋内データセットScanNet V2と屋外データセットKITTI-360の最先端手法より優れている。
論文 参考訳(メタデータ) (2024-07-01T15:06:04Z) - Fast and Efficient: Mask Neural Fields for 3D Scene Segmentation [47.08813064337934]
本稿では,新しい視点から3次元オープン語彙セグメンテーションを実現するMaskFieldを提案する。
MaskFieldは、マスクの特徴フィールドとクエリを定式化することによって、基礎モデルからマスクと意味的特徴の蒸留を分解する。
実験の結果,MaskFieldは従来の最先端手法を超越するだけでなく,極めて高速な収束を実現することがわかった。
論文 参考訳(メタデータ) (2024-07-01T12:07:26Z) - Mask-Attention-Free Transformer for 3D Instance Segmentation [68.29828726317723]
トランスフォーマーベースの手法は、マスクの注意が一般的に関与する3Dインスタンスセグメンテーションを支配している。
我々は、低リコール問題を克服し、位置対応を前提としたクロスアテンションを実現するために、一連の位置認識設計を開発する。
実験の結果,既存の作業よりも4倍早く収束し,ScanNetv2 3Dインスタンスセグメンテーションベンチマークに新たな技術状態を設定し,さまざまなデータセットで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-09-04T16:09:28Z) - Panoptic Lifting for 3D Scene Understanding with Neural Fields [32.59498558663363]
そこで本研究では,撮影シーンの画像からパノプティカル3D表現を学習するための新しい手法を提案する。
本手法では,事前学習ネットワークから推定される2次元空間分割マスクのみを必要とする。
実験結果は、Hypersim、Replica、ScanNetデータセットに挑戦するアプローチを検証する。
論文 参考訳(メタデータ) (2022-12-19T19:15:36Z) - Mask3D: Mask Transformer for 3D Semantic Instance Segmentation [89.41640045953378]
一般的なTransformerビルディングブロックを利用して、3Dポイントクラウドからインスタンスマスクを直接予測できることが示されています。
Transformerデコーダを使用して、インスタンスクエリは、複数のスケールでクラウド機能をポイントする反復的な参加者によって学習される。
Mask3Dは、新しい最先端ScanNetテスト(+6.2 mAP)、S3DIS 6-fold(+10.1 mAP)、LS3D(+11.2 mAP)、ScanNet200テスト(+12.4 mAP)を設定する。
論文 参考訳(メタデータ) (2022-10-06T17:55:09Z) - Semantic Implicit Neural Scene Representations With Semi-Supervised
Training [47.61092265963234]
その結果,暗黙的なシーン表現がポイントごとのセマンティックセマンティックセグメンテーションに活用できることが示唆された。
我々の手法は単純で汎用的で、数個のラベル付き2Dセグメンテーションマスクしか必要としない。
意味的に認識された暗黙的なニューラルシーン表現のための2つの新しい応用を探索する。
論文 参考訳(メタデータ) (2020-03-28T00:43:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。