論文の概要: Cross-Dimensional Refined Learning for Real-Time 3D Visual Perception
from Monocular Video
- arxiv url: http://arxiv.org/abs/2303.09248v2
- Date: Sun, 10 Sep 2023 13:57:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 22:01:09.527268
- Title: Cross-Dimensional Refined Learning for Real-Time 3D Visual Perception
from Monocular Video
- Title(参考訳): 単眼映像からのリアルタイム3次元視覚知覚のためのクロス次元精密学習
- Authors: Ziyang Hong, C. Patrick Yue
- Abstract要約: 本稿では3次元シーンの幾何学的構造と意味的ラベルを協調的に知覚する新しいリアルタイム能動的学習法を提案する。
本稿では,3次元メッシュと3次元セマンティックラベリングの両方をリアルタイムに抽出する,エンドツーエンドのクロスディメンテーションニューラルネットワーク(CDRNet)を提案する。
- 参考スコア(独自算出の注目度): 2.2299983745857896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel real-time capable learning method that jointly perceives a
3D scene's geometry structure and semantic labels. Recent approaches to
real-time 3D scene reconstruction mostly adopt a volumetric scheme, where a
Truncated Signed Distance Function (TSDF) is directly regressed. However, these
volumetric approaches tend to focus on the global coherence of their
reconstructions, which leads to a lack of local geometric detail. To overcome
this issue, we propose to leverage the latent geometric prior knowledge in 2D
image features by explicit depth prediction and anchored feature generation, to
refine the occupancy learning in TSDF volume. Besides, we find that this
cross-dimensional feature refinement methodology can also be adopted for the
semantic segmentation task by utilizing semantic priors. Hence, we proposed an
end-to-end cross-dimensional refinement neural network (CDRNet) to extract both
3D mesh and 3D semantic labeling in real time. The experiment results show that
this method achieves a state-of-the-art 3D perception efficiency on multiple
datasets, which indicates the great potential of our method for industrial
applications.
- Abstract(参考訳): 本稿では,3次元シーンの幾何学的構造と意味的ラベルを共同で知覚する,新しいリアルタイム学習手法を提案する。
近年のリアルタイム3次元シーン再構築へのアプローチは,Trncated Signed Distance Function(TSDF)を直接回帰するボリュームスキームが主流となっている。
しかしながら、これらのボリューム的アプローチは、その再構築のグローバルなコヒーレンスに焦点を当てる傾向にあり、局所的な幾何学的詳細が欠如している。
そこで本研究では,2次元画像特徴量における潜在幾何学的事前知識を,鮮明な深度予測とアンカー付き特徴生成により活用し,TSDFボリュームにおける占有学習を洗練することを提案する。
また,このクロス次元特徴の精細化手法は,セマンティクスプリエントを利用することで,セマンティクスセグメンテーションタスクにも適用できることがわかった。
そこで我々は,3次元メッシュと3次元セマンティックラベリングの両方をリアルタイムで抽出する,エンドツーエンドのクロスディメンテーションニューラルネットワーク(CDRNet)を提案する。
実験の結果,本手法は複数のデータセット上での最先端の3次元知覚効率を実現し,本手法の工業的応用の可能性を示している。
関連論文リスト
- MOSE: Monocular Semantic Reconstruction Using NeRF-Lifted Noisy Priors [11.118490283303407]
画像レベルの雑音を3次元に引き上げるニューラルネットワークセマンティック・リコンストラクション手法を提案する。
本手法は3次元空間と2次元空間の両方で正確な意味論と幾何学を生成する。
論文 参考訳(メタデータ) (2024-09-21T05:12:13Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - FineRecon: Depth-aware Feed-forward Network for Detailed 3D
Reconstruction [13.157400338544177]
ポーズ画像からの3次元再構成に関する最近の研究は、深層ニューラルネットワークを用いてシーンレベルの3次元幾何を直接推定できることを実証している。
推論に基づく3次元再構成の忠実度を改善するための有効な3つの方法を提案する。
提案手法はスムーズかつ高精度な再構成を行い,多深度および3次元再構成の指標において顕著な改善が見られた。
論文 参考訳(メタデータ) (2023-04-04T02:50:29Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Exploring Deep 3D Spatial Encodings for Large-Scale 3D Scene
Understanding [19.134536179555102]
生の3次元点雲の空間的特徴を非方向性グラフモデルに符号化することで,CNNに基づくアプローチの限界を克服する代替手法を提案する。
提案手法は、訓練時間とモデル安定性を改善して、最先端の精度で達成し、さらなる研究の可能性を示す。
論文 参考訳(メタデータ) (2020-11-29T12:56:19Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。