論文の概要: GNeSF: Generalizable Neural Semantic Fields
- arxiv url: http://arxiv.org/abs/2310.15712v2
- Date: Thu, 26 Oct 2023 06:40:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 00:23:53.825961
- Title: GNeSF: Generalizable Neural Semantic Fields
- Title(参考訳): GNeSF: 一般化可能なニューラルセマンティックフィールド
- Authors: Hanlin Chen, Chen Li, Mengqi Guo, Zhiwen Yan, Gim Hee Lee
- Abstract要約: 暗黙の表現に基づく一般化可能な3Dセグメンテーションフレームワークを提案する。
本稿では,各3次元点の異なる視点から2次元意味情報を集約するソフト投票機構を提案する。
当社のアプローチは、2Dアノテーションだけで、既存の強力な監視ベースのアプローチよりも優れています。
- 参考スコア(独自算出の注目度): 48.49860868061573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D scene segmentation based on neural implicit representation has emerged
recently with the advantage of training only on 2D supervision. However,
existing approaches still requires expensive per-scene optimization that
prohibits generalization to novel scenes during inference. To circumvent this
problem, we introduce a generalizable 3D segmentation framework based on
implicit representation. Specifically, our framework takes in multi-view image
features and semantic maps as the inputs instead of only spatial information to
avoid overfitting to scene-specific geometric and semantic information. We
propose a novel soft voting mechanism to aggregate the 2D semantic information
from different views for each 3D point. In addition to the image features, view
difference information is also encoded in our framework to predict the voting
scores. Intuitively, this allows the semantic information from nearby views to
contribute more compared to distant ones. Furthermore, a visibility module is
also designed to detect and filter out detrimental information from occluded
views. Due to the generalizability of our proposed method, we can synthesize
semantic maps or conduct 3D semantic segmentation for novel scenes with solely
2D semantic supervision. Experimental results show that our approach achieves
comparable performance with scene-specific approaches. More importantly, our
approach can even outperform existing strong supervision-based approaches with
only 2D annotations. Our source code is available at:
https://github.com/HLinChen/GNeSF.
- Abstract(参考訳): 神経的暗黙的表現に基づく3次元シーンセグメンテーションが最近登場し,2次元監督によるトレーニングのみを活用している。
しかし、既存のアプローチでは推論中に新しいシーンへの一般化を禁止した高価なシーンごとの最適化が必要である。
この問題を回避するために,暗黙表現に基づく一般化可能な3次元セグメンテーションフレームワークを提案する。
具体的には,多視点画像特徴と意味マップを入力として,空間情報のみを入力とし,シーン固有の幾何学的・意味的情報への過度な適合を避ける。
本稿では,各3次元点の異なる視点から2次元意味情報を集約するソフト投票機構を提案する。
画像の特徴に加えて,我々のフレームワークでは,投票結果を予測するために,ビュー差情報も符号化されている。
直感的には、近くのビューからのセマンティックな情報は、遠くのビューよりも貢献できる。
さらに、可視性モジュールは、隠されたビューから有害情報を検出し、フィルタリングするように設計されている。
提案手法の汎用性により,意味マップを合成したり,2次元意味的監督だけで新規シーンの3次元意味セグメンテーションを行うことができる。
実験結果から,本手法はシーン特異的アプローチと同等の性能を示した。
さらに重要なことは、我々のアプローチは2Dアノテーションだけで既存の強力な監督ベースのアプローチより優れていることです。
ソースコードはhttps://github.com/hlinchen/gnesf.com/で入手できます。
関連論文リスト
- Know Your Neighbors: Improving Single-View Reconstruction via Spatial Vision-Language Reasoning [119.99066522299309]
KYNは、各点の密度を予測するために意味的および空間的文脈を理由として、単一視点シーン再構築のための新しい手法である。
その結果,KYNは3次元点ごとの密度の予測よりも3次元形状回復を改善することがわかった。
我々は,KITTI-360のシーンとオブジェクトの再構成における最先端の成果を達成し,以前の作業と比べてゼロショットの一般化が向上したことを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:59Z) - GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields [50.68719394443926]
Generalizable Open-Vocabulary Neural Semantic Fields (GOV-NeSF)は、オープン語彙意味論による3Dシーンの一般化可能な暗黙的表現を提供する新しいアプローチである。
GOV-NeSFは2次元および3次元のオープン語彙セマンティックセマンティックセグメンテーションにおいて最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-01T05:19:50Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Learning 3D Semantics from Pose-Noisy 2D Images with Hierarchical Full
Attention Network [17.58032517457836]
ポーズエラーを含む2次元多視点画像観測から3次元ポイントクラウドの意味を学習するための新しいフレームワークを提案する。
階層型フルアテンションネットワーク(HiFANet)は、パッチ、バッグ・オブ・フレーム、ポイント間セマンティックキューを逐次集約するように設計されている。
実験の結果,提案フレームワークは既存の3Dポイント・クラウド・ベースの手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-17T20:24:26Z) - NeSF: Neural Semantic Fields for Generalizable Semantic Segmentation of
3D Scenes [25.26518805603798]
NeSFは、ポーズされたRGB画像のみから3Dセマンティックフィールドを生成する方法である。
本手法は,訓練に2次元の監督しか必要としない,真に密集した3次元シーンセグメンテーションを提供する最初の方法である。
論文 参考訳(メタデータ) (2021-11-25T21:44:54Z) - Semantic Correspondence via 2D-3D-2D Cycle [58.023058561837686]
本稿では,3次元領域に利用して意味的対応を予測するための新しい手法を提案する。
提案手法は,標準的なセマンティックベンチマークにおいて比較,さらに優れた結果を与えることを示す。
論文 参考訳(メタデータ) (2020-04-20T05:27:45Z) - Semantic Implicit Neural Scene Representations With Semi-Supervised
Training [47.61092265963234]
その結果,暗黙的なシーン表現がポイントごとのセマンティックセマンティックセグメンテーションに活用できることが示唆された。
我々の手法は単純で汎用的で、数個のラベル付き2Dセグメンテーションマスクしか必要としない。
意味的に認識された暗黙的なニューラルシーン表現のための2つの新しい応用を探索する。
論文 参考訳(メタデータ) (2020-03-28T00:43:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。