論文の概要: Semantic Scene Completion with Cleaner Self
- arxiv url: http://arxiv.org/abs/2303.09977v1
- Date: Fri, 17 Mar 2023 13:50:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-20 14:36:30.691384
- Title: Semantic Scene Completion with Cleaner Self
- Title(参考訳): よりクリーンな自己によるセマンティックシーンの完成
- Authors: Fengyun Wang, Dong Zhang, Hanwang Zhang, Jinhui Tang, and Qianru Sun
- Abstract要約: セマンティックシーンコンプリート(SSC)は、単一のビュー深さと/またはRGB 2Dピクセルの画像を3Dボクセルに変換し、それぞれのセマンティックラベルが予測される。
SSCは、予測モデルが目に見える表面の背後にあるものを「想像する」必要があるため、よく知られた偽装問題であり、通常はTrncated Signed Distance Function (TSDF) によって表される。
我々は3Dボクセルを用いて、TSDF-CADと呼ばれる完全な可視表面を生成し、次に「クリーン」なSSCモデルを訓練する。
モデルはノイズフリーなので、期待できる。
- 参考スコア(独自算出の注目度): 93.99441599791275
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Semantic Scene Completion (SSC) transforms an image of single-view depth
and/or RGB 2D pixels into 3D voxels, each of whose semantic labels are
predicted. SSC is a well-known ill-posed problem as the prediction model has to
"imagine" what is behind the visible surface, which is usually represented by
Truncated Signed Distance Function (TSDF). Due to the sensory imperfection of
the depth camera, most existing methods based on the noisy TSDF estimated from
depth values suffer from 1) incomplete volumetric predictions and 2) confused
semantic labels. To this end, we use the ground-truth 3D voxels to generate a
perfect visible surface, called TSDF-CAD, and then train a "cleaner" SSC model.
As the model is noise-free, it is expected to focus more on the "imagination"
of unseen voxels. Then, we propose to distill the intermediate "cleaner"
knowledge into another model with noisy TSDF input. In particular, we use the
3D occupancy feature and the semantic relations of the "cleaner self" to
supervise the counterparts of the "noisy self" to respectively address the
above two incorrect predictions. Experimental results validate that our method
improves the noisy counterparts with 3.1% IoU and 2.2% mIoU for measuring scene
completion and SSC, and also achieves new state-of-the-art accuracy on the
popular NYU dataset.
- Abstract(参考訳): semantic scene completion (ssc) は、シングルビュー深度および/またはrgb 2dピクセルの画像を3dボクセルに変換し、それぞれに意味ラベルが予測される。
SSCは、予測モデルが目に見える表面の背後にあるものを「想像する」必要があるため、よく知られた偽装問題であり、通常はTrncated Signed Distance Function (TSDF) によって表される。
奥行きカメラの感覚不完全性のため、奥行き値から推定される雑音性TSDFに基づく既存の方法がほとんどである。
1)不完全な容積予測と
2) 意味ラベルの混同。
この目的のために、地上3Dボクセルを用いて、TSDF-CADと呼ばれる完全な可視表面を生成し、次に「クリーン」SSCモデルを訓練する。
モデルはノイズフリーであるため、見えないボクセルの「想像」をより重視することが期待されている。
そこで, 中間の「クリーナー」知識を, 雑音tsdf入力のある別のモデルに蒸留する。
特に,3次元占有率特徴と「クリーナー・セルフ」の意味関係を用いて,上記の2つの不正確な予測にそれぞれ対応する「ノイズ・セルフ」を監督する。
実験の結果,3.1%のIoUと2.2%のmIoUを用いて,シーン完了とSSCを計測し,また,人気の高いNYUデータセット上で新たな最先端の精度を実現することができた。
関連論文リスト
- Robust 3D Semantic Occupancy Prediction with Calibration-free Spatial Transformation [32.50849425431012]
マルチカメラとLiDARを備えた自動運転車では、高精度で堅牢な予測のために、マルチセンサー情報を統一された3D空間に集約することが重要である。
最近の手法は主にセンサキャリブレーションに依存する2D-to-3D変換に基づいて構築され,2D画像情報を3D空間に投影する。
本研究では,空間対応を暗黙的にモデル化するために,バニラ注意に基づく校正自由空間変換を提案する。
論文 参考訳(メタデータ) (2024-11-19T02:40:42Z) - Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance [11.090775523892074]
我々は、高密度な注釈付きデータへの依存を軽減するために、新しい半教師付きフレームワークを導入する。
提案手法は2次元基礎モデルを用いて3次元シーンの幾何学的・意味的手がかりを生成する。
本手法は,10%のラベル付きデータを用いて全教師付き性能の最大85%を達成する。
論文 参考訳(メタデータ) (2024-08-21T12:13:18Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - 3D Dense Geometry-Guided Facial Expression Synthesis by Adversarial
Learning [54.24887282693925]
本稿では,3次元密度(深度,表面正規度)情報を表現操作に用いる新しいフレームワークを提案する。
既製の最先端3D再構成モデルを用いて深度を推定し,大規模RGB-Depthデータセットを作成する。
実験により,提案手法は競争ベースラインと既存の芸術を大きなマージンで上回ることを示した。
論文 参考訳(メタデータ) (2020-09-30T17:12:35Z) - Atlas: End-to-End 3D Scene Reconstruction from Posed Images [13.154808583020229]
RGB画像の集合からTSDF(truncated signed distance function)を直接回帰することにより,シーンのエンドツーエンドな3D再構成手法を提案する。
2D CNNは、各画像から特徴を独立して抽出し、その特徴をバックプロジェクションし、ボクセルボリュームに蓄積する。
3D CNNは蓄積した特徴を洗練し、TSDF値を予測する。
論文 参考訳(メタデータ) (2020-03-23T17:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。