論文の概要: Cross-Dimensional Refined Learning for Real-Time 3D Visual Perception
from Monocular Video
- arxiv url: http://arxiv.org/abs/2303.09248v1
- Date: Thu, 16 Mar 2023 11:53:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 15:51:00.364046
- Title: Cross-Dimensional Refined Learning for Real-Time 3D Visual Perception
from Monocular Video
- Title(参考訳): 単眼映像からのリアルタイム3次元視覚知覚のためのクロス次元精密学習
- Authors: Ziyang Hong, C. Patrick Yue
- Abstract要約: 本稿では3次元シーンの幾何学的構造と意味的ラベルを協調的に知覚する新しいリアルタイム能動的学習法を提案する。
本稿では,3次元メッシュと3次元セマンティックラベリングの両方をリアルタイムに抽出する,エンドツーエンドのクロスディメンテーションニューラルネットワーク(CDRNet)を提案する。
- 参考スコア(独自算出の注目度): 0.913755431537592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel real-time capable learning method that jointly perceives a
3D scene's geometry structure and semantic labels. Recent approaches to
real-time 3D scene reconstruction mostly adopt a volumetric scheme, where a
truncated signed distance function (TSDF) is directly regressed. However, these
volumetric approaches tend to focus on the global coherence of their
reconstructions, which leads to a lack of local geometrical detail. To overcome
this issue, we propose to leverage the latent geometrical prior knowledge in 2D
image features by explicit depth prediction and anchored feature generation, to
refine the occupancy learning in TSDF volume. Besides, we find that this
cross-dimensional feature refinement methodology can also be adopted for the
semantic segmentation task. Hence, we proposed an end-to-end cross-dimensional
refinement neural network (CDRNet) to extract both 3D mesh and 3D semantic
labeling in real time. The experiment results show that the proposed method
achieves state-of-the-art 3D perception efficiency on multiple datasets, which
indicates the great potential of our method for industrial applications.
- Abstract(参考訳): 本稿では,3次元シーンの幾何学的構造と意味的ラベルを共同で知覚する,新しいリアルタイム学習手法を提案する。
近年のリアルタイム3次元シーン再構築へのアプローチは,TSDF(Truncated signed distance function)を直接回帰するボリュームスキームが主流となっている。
しかしながら、これらのボリューム的アプローチは、その再構築のグローバルなコヒーレンスに焦点を当てる傾向にあり、局所的な幾何学的詳細が欠如している。
そこで本研究では,2次元画像特徴量における潜在幾何学的事前知識を,鮮明な深度予測とアンカー付き特徴生成により活用し,TSDFボリュームにおける占有学習を洗練することを提案する。
さらに,この横断的特徴洗練手法が意味的セグメント化タスクにも適用可能であることを見出した。
そこで我々は,3次元メッシュと3次元セマンティックラベリングの両方をリアルタイムで抽出する,エンドツーエンドのクロスディメンテーションニューラルネットワーク(CDRNet)を提案する。
実験の結果, 提案手法は, 複数のデータセット上での最先端の3次元知覚効率を実現し, 産業応用の可能性を示している。
関連論文リスト
- GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs [49.55919802779889]
本稿では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。
本研究では、幾何学的表現学習において、畳み込みニューラルネットワークとグラフニューラルネットワークを相補的に活用する。
提案手法は,数段の伝搬ステップのみを使用する場合と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-19T17:56:03Z) - Learnable Triangulation for Deep Learning-based 3D Reconstruction of
Objects of Arbitrary Topology from Single RGB Images [12.693545159861857]
モノクロ画像から3次元物体を再構成する深層強化学習手法を提案する。
提案手法は, 視覚的品質, 再構成精度, 計算時間において, 最先端技術よりも優れる。
論文 参考訳(メタデータ) (2021-09-24T09:44:22Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D
Object Detection [83.57300674285133]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Neural Geometric Level of Detail: Real-time Rendering with Implicit 3D
Shapes [77.6741486264257]
本稿では,高忠実度ニューラルネットワークSDFのリアルタイムレンダリングを可能にする,効率的なニューラル表現を提案する。
我々の表現は、以前の作品に比べてレンダリング速度の点で2~3桁の効率であることを示す。
論文 参考訳(メタデータ) (2021-01-26T18:50:22Z) - Exploring Deep 3D Spatial Encodings for Large-Scale 3D Scene
Understanding [19.134536179555102]
生の3次元点雲の空間的特徴を非方向性グラフモデルに符号化することで,CNNに基づくアプローチの限界を克服する代替手法を提案する。
提案手法は、訓練時間とモデル安定性を改善して、最先端の精度で達成し、さらなる研究の可能性を示す。
論文 参考訳(メタデータ) (2020-11-29T12:56:19Z) - SCFusion: Real-time Incremental Scene Reconstruction with Semantic
Completion [86.77318031029404]
本研究では,シーン再構成とセマンティックシーン補完を段階的かつリアルタイムに共同で行うフレームワークを提案する。
我々のフレームワークは、3Dグローバルモデルでセマンティックコンプリートを正確かつ効率的に融合させるために、占有マップを処理し、ボクセル状態を活用するように設計された新しいニューラルアーキテクチャに依存している。
論文 参考訳(メタデータ) (2020-10-26T15:31:52Z) - SDF-SRN: Learning Signed Distance 3D Object Reconstruction from Static
Images [44.78174845839193]
近年の取り組みは、注釈付き2DシルエットによるRGB画像から3Dの監督なしに3Dの再構築を学ぶことに変わった。
これらのテクニックは、トレーニング中に同じオブジェクトインスタンスのマルチビューアノテーションを必要とする。
本研究では,SDF-SRNを提案する。
論文 参考訳(メタデータ) (2020-10-20T17:59:47Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。