論文の概要: S4C: Self-Supervised Semantic Scene Completion with Neural Fields
- arxiv url: http://arxiv.org/abs/2310.07522v2
- Date: Thu, 12 Oct 2023 08:02:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 11:11:34.055386
- Title: S4C: Self-Supervised Semantic Scene Completion with Neural Fields
- Title(参考訳): S4C: ニューラルネットワークを用いた自己監視セマンティックシーン補完
- Authors: Adrian Hayler, Felix Wimbauer, Dominik Muhle, Christian Rupprecht,
Daniel Cremers
- Abstract要約: 3Dセマンティックシーン理解はコンピュータビジョンにおける根本的な課題である。
SSCの現在の手法は、集約されたLiDARスキャンに基づいて、一般に3D地上真実に基づいて訓練されている。
本研究は,S4Cと呼ばれる3次元地上真理データに依存しないSSCに対して,初めての自己教師型アプローチを提案する。
- 参考スコア(独自算出の注目度): 54.35865716337547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D semantic scene understanding is a fundamental challenge in computer
vision. It enables mobile agents to autonomously plan and navigate arbitrary
environments. SSC formalizes this challenge as jointly estimating dense
geometry and semantic information from sparse observations of a scene. Current
methods for SSC are generally trained on 3D ground truth based on aggregated
LiDAR scans. This process relies on special sensors and annotation by hand
which are costly and do not scale well. To overcome this issue, our work
presents the first self-supervised approach to SSC called S4C that does not
rely on 3D ground truth data. Our proposed method can reconstruct a scene from
a single image and only relies on videos and pseudo segmentation ground truth
generated from off-the-shelf image segmentation network during training. Unlike
existing methods, which use discrete voxel grids, we represent scenes as
implicit semantic fields. This formulation allows querying any point within the
camera frustum for occupancy and semantic class. Our architecture is trained
through rendering-based self-supervised losses. Nonetheless, our method
achieves performance close to fully supervised state-of-the-art methods.
Additionally, our method demonstrates strong generalization capabilities and
can synthesize accurate segmentation maps for far away viewpoints.
- Abstract(参考訳): 3Dセマンティックシーン理解はコンピュータビジョンの基本的な課題である。
モバイルエージェントは任意の環境を自律的に計画し、ナビゲートすることができる。
SSCはこの課題を、シーンのスパース観測から密な幾何学と意味情報を共同で推定するものとして定式化している。
SSCの現在の手法は、集約されたLiDARスキャンに基づいて、一般に3D地上真実に基づいて訓練されている。
このプロセスは、コストがかかり、スケールが良くない特別なセンサーと手によるアノテーションに依存している。
この問題を克服するため,本研究では3次元基底データに依存しないsscに対する最初の自己教師ありアプローチであるs4cを提案する。
提案手法は,1つの画像からシーンを再構成し,トレーニング中にオフザシェルフ画像セグメンテーションネットワークから生成された映像と擬似セグメンテーションの真実のみに依存する。
離散的なボクセルグリッドを使用する既存の方法とは異なり、シーンは暗黙のセマンティックフィールドとして表現する。
この定式化により、占有率とセマンティクスクラスのカメラフラスタム内の任意のポイントをクエリできる。
私たちのアーキテクチャはレンダリングベースの自己管理的損失によって訓練されています。
しかしながら,本手法は完全教師付き最先端手法に近い性能を実現する。
さらに,強い一般化能力を示し,遠方から見て正確なセグメンテーションマップを合成する。
関連論文リスト
- LangOcc: Self-Supervised Open Vocabulary Occupancy Estimation via Volume Rendering [0.5852077003870417]
LangOccはオープン語彙占有率推定の新しいアプローチである。
カメライメージによってのみ訓練され、視覚言語アライメントによって任意の意味を検出することができる。
我々はOcc3D-nuScenesデータセット上での自己教師型セマンティック占有度推定の最先端結果を得る。
論文 参考訳(メタデータ) (2024-07-24T14:22:55Z) - Know Your Neighbors: Improving Single-View Reconstruction via Spatial Vision-Language Reasoning [119.99066522299309]
KYNは、各点の密度を予測するために意味的および空間的文脈を理由として、単一視点シーン再構築のための新しい手法である。
その結果,KYNは3次元点ごとの密度の予測よりも3次元形状回復を改善することがわかった。
我々は,KITTI-360のシーンとオブジェクトの再構成における最先端の成果を達成し,以前の作業と比べてゼロショットの一般化が向上したことを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:59Z) - Camera-based 3D Semantic Scene Completion with Sparse Guidance Network [18.415854443539786]
本稿では,SGNと呼ばれるカメラベースのセマンティックシーン補完フレームワークを提案する。
SGNは空間幾何学的手がかりに基づいてセマンティック・アウェア・シード・ボクセルからシーン全体へのセマンティクスの伝播を行う。
実験の結果,既存の最先端手法よりもSGNの方が優れていることが示された。
論文 参考訳(メタデータ) (2023-12-10T04:17:27Z) - U3DS$^3$: Unsupervised 3D Semantic Scene Segmentation [19.706172244951116]
本稿では,U3DS$3$について,総合的な3Dシーンに対して,完全に教師なしのポイントクラウドセグメンテーションに向けたステップとして提示する。
提案手法の最初のステップは,各シーンの幾何学的特徴に基づいてスーパーポイントを生成することである。
次に、空間クラスタリングに基づく手法を用いて学習プロセスを行い、次いで、クラスタセントロイドに応じて生成された擬似ラベルを用いて反復的なトレーニングを行う。
論文 参考訳(メタデータ) (2023-11-10T12:05:35Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。
私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。
このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文 参考訳(メタデータ) (2022-11-28T18:58:36Z) - NeSF: Neural Semantic Fields for Generalizable Semantic Segmentation of
3D Scenes [25.26518805603798]
NeSFは、ポーズされたRGB画像のみから3Dセマンティックフィールドを生成する方法である。
本手法は,訓練に2次元の監督しか必要としない,真に密集した3次元シーンセグメンテーションを提供する最初の方法である。
論文 参考訳(メタデータ) (2021-11-25T21:44:54Z) - Semantic Scene Completion using Local Deep Implicit Functions on LiDAR
Data [4.355440821669468]
本稿では,シーン補完のための新しい学習手法として,局所的な深層インプリシット関数に基づくシーン分割ネットワークを提案する。
この連続表現は、空間的離散化を必要とせず、広い屋外シーンの幾何学的・意味的な特性を符号化するのに適していることを示す。
実験により,本手法が与えられたシーンの高密度な3次元記述にデコード可能な強力な表現を生成することを確認した。
論文 参考訳(メタデータ) (2020-11-18T07:39:13Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z) - Depth Based Semantic Scene Completion with Position Importance Aware
Loss [52.06051681324545]
PALNetはセマンティックシーン補完のための新しいハイブリッドネットワークである。
詳細な深度情報を用いて,多段階から2次元特徴と3次元特徴の両方を抽出する。
オブジェクトのバウンダリやシーンの隅といった重要な詳細を復元することは有益である。
論文 参考訳(メタデータ) (2020-01-29T07:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。