論文の概要: Semantic Scene Completion with Cleaner Self
- arxiv url: http://arxiv.org/abs/2303.09977v1
- Date: Fri, 17 Mar 2023 13:50:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-20 14:36:30.691384
- Title: Semantic Scene Completion with Cleaner Self
- Title(参考訳): よりクリーンな自己によるセマンティックシーンの完成
- Authors: Fengyun Wang, Dong Zhang, Hanwang Zhang, Jinhui Tang, and Qianru Sun
- Abstract要約: セマンティックシーンコンプリート(SSC)は、単一のビュー深さと/またはRGB 2Dピクセルの画像を3Dボクセルに変換し、それぞれのセマンティックラベルが予測される。
SSCは、予測モデルが目に見える表面の背後にあるものを「想像する」必要があるため、よく知られた偽装問題であり、通常はTrncated Signed Distance Function (TSDF) によって表される。
我々は3Dボクセルを用いて、TSDF-CADと呼ばれる完全な可視表面を生成し、次に「クリーン」なSSCモデルを訓練する。
モデルはノイズフリーなので、期待できる。
- 参考スコア(独自算出の注目度): 93.99441599791275
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Semantic Scene Completion (SSC) transforms an image of single-view depth
and/or RGB 2D pixels into 3D voxels, each of whose semantic labels are
predicted. SSC is a well-known ill-posed problem as the prediction model has to
"imagine" what is behind the visible surface, which is usually represented by
Truncated Signed Distance Function (TSDF). Due to the sensory imperfection of
the depth camera, most existing methods based on the noisy TSDF estimated from
depth values suffer from 1) incomplete volumetric predictions and 2) confused
semantic labels. To this end, we use the ground-truth 3D voxels to generate a
perfect visible surface, called TSDF-CAD, and then train a "cleaner" SSC model.
As the model is noise-free, it is expected to focus more on the "imagination"
of unseen voxels. Then, we propose to distill the intermediate "cleaner"
knowledge into another model with noisy TSDF input. In particular, we use the
3D occupancy feature and the semantic relations of the "cleaner self" to
supervise the counterparts of the "noisy self" to respectively address the
above two incorrect predictions. Experimental results validate that our method
improves the noisy counterparts with 3.1% IoU and 2.2% mIoU for measuring scene
completion and SSC, and also achieves new state-of-the-art accuracy on the
popular NYU dataset.
- Abstract(参考訳): semantic scene completion (ssc) は、シングルビュー深度および/またはrgb 2dピクセルの画像を3dボクセルに変換し、それぞれに意味ラベルが予測される。
SSCは、予測モデルが目に見える表面の背後にあるものを「想像する」必要があるため、よく知られた偽装問題であり、通常はTrncated Signed Distance Function (TSDF) によって表される。
奥行きカメラの感覚不完全性のため、奥行き値から推定される雑音性TSDFに基づく既存の方法がほとんどである。
1)不完全な容積予測と
2) 意味ラベルの混同。
この目的のために、地上3Dボクセルを用いて、TSDF-CADと呼ばれる完全な可視表面を生成し、次に「クリーン」SSCモデルを訓練する。
モデルはノイズフリーであるため、見えないボクセルの「想像」をより重視することが期待されている。
そこで, 中間の「クリーナー」知識を, 雑音tsdf入力のある別のモデルに蒸留する。
特に,3次元占有率特徴と「クリーナー・セルフ」の意味関係を用いて,上記の2つの不正確な予測にそれぞれ対応する「ノイズ・セルフ」を監督する。
実験の結果,3.1%のIoUと2.2%のmIoUを用いて,シーン完了とSSCを計測し,また,人気の高いNYUデータセット上で新たな最先端の精度を実現することができた。
関連論文リスト
- NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth
Supervision for Indoor Multi-View 3D Detection [72.0098999512727]
NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。
セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。
結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-22T11:48:06Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - OccDepth: A Depth-Aware Method for 3D Semantic Scene Completion [6.297023466646343]
3Dセマンティックシーンコンプリート(SSC)は、自律運転やロボットシステムの分野に適用可能な、密集した幾何学的および意味的なシーン表現を提供することができる。
ステレオ画像(またはRGBD画像)から暗黙的な深度情報をフル活用して3次元形状の復元を支援する,OccDepth という最初のステレオSSC手法を提案する。
論文 参考訳(メタデータ) (2023-02-27T06:35:03Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - 3D Dense Geometry-Guided Facial Expression Synthesis by Adversarial
Learning [54.24887282693925]
本稿では,3次元密度(深度,表面正規度)情報を表現操作に用いる新しいフレームワークを提案する。
既製の最先端3D再構成モデルを用いて深度を推定し,大規模RGB-Depthデータセットを作成する。
実験により,提案手法は競争ベースラインと既存の芸術を大きなマージンで上回ることを示した。
論文 参考訳(メタデータ) (2020-09-30T17:12:35Z) - Atlas: End-to-End 3D Scene Reconstruction from Posed Images [13.154808583020229]
RGB画像の集合からTSDF(truncated signed distance function)を直接回帰することにより,シーンのエンドツーエンドな3D再構成手法を提案する。
2D CNNは、各画像から特徴を独立して抽出し、その特徴をバックプロジェクションし、ボクセルボリュームに蓄積する。
3D CNNは蓄積した特徴を洗練し、TSDF値を予測する。
論文 参考訳(メタデータ) (2020-03-23T17:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。