論文の概要: GCNDepth: Self-supervised Monocular Depth Estimation based on Graph
Convolutional Network
- arxiv url: http://arxiv.org/abs/2112.06782v1
- Date: Mon, 13 Dec 2021 16:46:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 18:15:09.248715
- Title: GCNDepth: Self-supervised Monocular Depth Estimation based on Graph
Convolutional Network
- Title(参考訳): GCNDepth:グラフ畳み込みネットワークに基づく自己教師型単眼深度推定
- Authors: Armin Masoumian, Hatem A. Rashwan, Saddam Abdulwahab, Julian Cristiano
and Domenec Puig
- Abstract要約: この研究は、深度マップの量的および質的な理解を高めるために、一連の改善を伴う新しいソリューションをもたらす。
グラフ畳み込みネットワーク(GCN)は、非ユークリッドデータ上の畳み込みを処理でき、位相構造内の不規則な画像領域に適用することができる。
提案手法は,公的なKITTIおよびMake3Dデータセットに対して,高い予測精度で89%の精度で同等かつ有望な結果を与える。
- 参考スコア(独自算出の注目度): 11.332580333969302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Depth estimation is a challenging task of 3D reconstruction to enhance the
accuracy sensing of environment awareness. This work brings a new solution with
a set of improvements, which increase the quantitative and qualitative
understanding of depth maps compared to existing methods. Recently, a
convolutional neural network (CNN) has demonstrated its extraordinary ability
in estimating depth maps from monocular videos. However, traditional CNN does
not support topological structure and they can work only on regular image
regions with determined size and weights. On the other hand, graph
convolutional networks (GCN) can handle the convolution on non-Euclidean data
and it can be applied to irregular image regions within a topological
structure. Therefore, in this work in order to preserve object geometric
appearances and distributions, we aim at exploiting GCN for a self-supervised
depth estimation model. Our model consists of two parallel auto-encoder
networks: the first is an auto-encoder that will depend on ResNet-50 and
extract the feature from the input image and on multi-scale GCN to estimate the
depth map. In turn, the second network will be used to estimate the ego-motion
vector (i.e., 3D pose) between two consecutive frames based on ResNet-18. Both
the estimated 3D pose and depth map will be used for constructing a target
image. A combination of loss functions related to photometric, projection, and
smoothness is used to cope with bad depth prediction and preserve the
discontinuities of the objects. In particular, our method provided comparable
and promising results with a high prediction accuracy of 89% on the publicly
KITTI and Make3D datasets along with a reduction of 40% in the number of
trainable parameters compared to the state of the art solutions. The source
code is publicly available at https://github.com/ArminMasoumian/GCNDepth.git
- Abstract(参考訳): 深度推定は環境認識の精度を高めるために3次元再構成の課題である。
この研究は、既存の方法に比べて深度マップの量的および質的理解を増加させる一連の改善を伴う新しいソリューションをもたらす。
近年,畳み込みニューラルネットワーク(cnn)は,単眼映像から深度マップを推定する能力が極めて高いことを示した。
しかし、従来のcnnは位相構造をサポートしておらず、サイズと重みが決定された正規画像領域でのみ機能する。
一方、グラフ畳み込みネットワーク(GCN)は、非ユークリッドデータ上の畳み込みを処理でき、位相構造内の不規則な画像領域に適用することができる。
そこで本研究では,オブジェクトの幾何学的外観と分布を保存するために,GCNを自己監督深度推定モデルに活用することを目的とする。
1つはResNet-50に依存し、入力画像とマルチスケールGCNから特徴を抽出して深度マップを推定する自動エンコーダである。
次に、第2のネットワークを用いて、ResNet-18に基づく2つの連続フレーム間のエゴモーションベクトル(すなわち3Dポーズ)を推定する。
推定された3dポーズと深度マップはどちらも対象画像の構築に使用される。
測光、投影、滑らかさに関連する損失関数の組み合わせは、深さの悪い予測に対処し、物体の不連続性を保存するために用いられる。
特に,提案手法では,KITTIおよびMake3Dデータセットの予測精度が89%,トレーニング可能なパラメータ数が40%低下した。
ソースコードはhttps://github.com/ArminMasoumian/GCNDepth.gitで公開されている。
関連論文リスト
- Improving 3D Pose Estimation for Sign Language [38.20064386142944]
この研究は、単一の画像における3次元人間のポーズ復元に対処する。
本稿では,フォワード・キネマティクス(FK)とニューラルネットワークを組み合わせた3次元ポーズの高速かつ有効な予測手法を提案する。
論文 参考訳(メタデータ) (2023-08-18T13:05:10Z) - SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs [49.55919802779889]
本稿では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。
本研究では、幾何学的表現学習において、畳み込みニューラルネットワークとグラフニューラルネットワークを相補的に活用する。
提案手法は,数段の伝搬ステップのみを使用する場合と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-19T17:56:03Z) - DevNet: Self-supervised Monocular Depth Learning via Density Volume
Construction [51.96971077984869]
単眼画像からの自己教師付き深度学習は、通常、時間的に隣接する画像フレーム間の2Dピクセル単位の光度関係に依存する。
本研究は, 自己教師型単眼深度学習フレームワークであるDevNetを提案する。
論文 参考訳(メタデータ) (2022-09-14T00:08:44Z) - DeepFusion: Real-Time Dense 3D Reconstruction for Monocular SLAM using
Single-View Depth and Gradient Predictions [22.243043857097582]
DeepFusionは、GPU上でリアルタイムに高密度な再構成を生成することができる。
半密度多視点ステレオアルゴリズムの出力とCNNの深さと予測を確率的に融合する。
合成および実世界のデータセットのパフォーマンスに基づいて、DeepFusionは、少なくとも他の同等のシステムと同様に、実行可能であることを実証する。
論文 参考訳(メタデータ) (2022-07-25T14:55:26Z) - MonoJSG: Joint Semantic and Geometric Cost Volume for Monocular 3D
Object Detection [10.377424252002792]
モノクル3D物体検出は正確な深度回復能力に欠ける。
ディープニューラルネットワーク(DNN)は、高レベルの学習機能からモノクルディープセンシングを可能にする。
深度誤差をモデル化するための共同意味量と幾何学的コスト容積を提案する。
論文 参考訳(メタデータ) (2022-03-16T11:54:10Z) - VR3Dense: Voxel Representation Learning for 3D Object Detection and
Monocular Dense Depth Reconstruction [0.951828574518325]
3次元物体検出と単眼深層再構成ニューラルネットワークを共同トレーニングする方法を紹介します。
推論中に入力、LiDARポイントクラウド、単一のRGBイメージとして取得し、オブジェクトポーズ予測と密に再構築された深度マップを生成します。
物体検出は教師付き方式で訓練されるが,自己教師型と教師型の両方の損失関数を用いて深度予測ネットワークを訓練する。
論文 参考訳(メタデータ) (2021-04-13T04:25:54Z) - GeoNet++: Iterative Geometric Neural Network with Edge-Aware Refinement
for Joint Depth and Surface Normal Estimation [204.13451624763735]
本研究では,エッジアウェア・リファインメント(GeoNet++)を用いた幾何ニューラルネットワークを提案し,単一の画像から深さと表面正規写像の両方を共同で予測する。
geonet++は、強い3d一貫性と鋭い境界を持つ深さと表面の正常を効果的に予測する。
画素単位の誤差/精度を評価することに焦点を当てた現在の測定値とは対照的に、3DGMは予測深度が高品質な3D表面の正常を再構築できるかどうかを測定する。
論文 参考訳(メタデータ) (2020-12-13T06:48:01Z) - HDNet: Human Depth Estimation for Multi-Person Camera-Space Localization [83.57863764231655]
本稿では,根の絶対的局所化のためのエンドツーエンドフレームワークであるHuman Depth Estimation Network (HDNet)を提案する。
関節間の特徴伝達に骨格ベースのグラフニューラルネットワーク(GNN)を用いる。
我々は,2つのベンチマークデータセットを用いて,ルートジョイントローカライゼーションとルート相対的な3次元ポーズ推定タスクについて,HDNetの評価を行った。
論文 参考訳(メタデータ) (2020-07-17T12:44:23Z) - Depth Completion Using a View-constrained Deep Prior [73.21559000917554]
近年の研究では、畳み込みニューラルネットワーク(CNN)の構造が、自然画像に有利な強い先行性をもたらすことが示されている。
この前者はディープ・イメージ・先行 (DIP) と呼ばれ、画像の装飾や塗装といった逆問題において有効な正則化器である。
我々は、DIPの概念を深度画像に拡張し、色画像とノイズと不完全な目標深度マップから、CNNネットワーク構造を先行して復元された深度マップを再構成する。
論文 参考訳(メタデータ) (2020-01-21T21:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。