論文の概要: Deep Depth Estimation from Visual-Inertial SLAM
- arxiv url: http://arxiv.org/abs/2008.00092v2
- Date: Fri, 14 Aug 2020 22:00:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 06:47:31.045277
- Title: Deep Depth Estimation from Visual-Inertial SLAM
- Title(参考訳): ビジュアル・慣性SLAMによる深度推定
- Authors: Kourosh Sartipi, Tien Do, Tong Ke, Khiem Vuong, Stergios I.
Roumeliotis
- Abstract要約: 視覚-慣性同時局在マッピングシステム(VI-SLAM)を用いてスパース深度を計算した症例について検討した。
結果として生じる点雲は密度が低く、ノイズがあり、一様でない空間分布を持つ。
我々は、VI-SLAMから得られる重力推定値を用いて、トレーニングデータセットで一般的な向きに入力画像をワープする。
- 参考スコア(独自算出の注目度): 11.814395824799988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the problem of learning to complete a scene's depth from
sparse depth points and images of indoor scenes. Specifically, we study the
case in which the sparse depth is computed from a visual-inertial simultaneous
localization and mapping (VI-SLAM) system. The resulting point cloud has low
density, it is noisy, and has non-uniform spatial distribution, as compared to
the input from active depth sensors, e.g., LiDAR or Kinect. Since the VI-SLAM
produces point clouds only over textured areas, we compensate for the missing
depth of the low-texture surfaces by leveraging their planar structures and
their surface normals which is an important intermediate representation. The
pre-trained surface normal network, however, suffers from large performance
degradation when there is a significant difference in the viewing direction
(especially the roll angle) of the test image as compared to the trained ones.
To address this limitation, we use the available gravity estimate from the
VI-SLAM to warp the input image to the orientation prevailing in the training
dataset. This results in a significant performance gain for the surface normal
estimate, and thus the dense depth estimates. Finally, we show that our method
outperforms other state-of-the-art approaches both on training (ScanNet and
NYUv2) and testing (collected with Azure Kinect) datasets.
- Abstract(参考訳): 本稿では,屋内シーンの疎度点と画像からシーンの深度を学習する際の課題について述べる。
具体的には,vi-slam (visual-inertial concurrent localization and mapping) システムを用いて,スパース深さを計算した。
結果として生じる点雲は密度が低く、ノイズがあり、LiDARやKinectのようなアクティブな深度センサーからの入力と比較して一様でない空間分布を持つ。
vi-slamはテクスチャ領域にのみ点雲を発生させるため、平面構造と重要な中間表現である表面正規性を利用して低テクスチャ表面の欠落深さを補償する。
しかし、事前訓練された表面正規ネットワークは、訓練されたものと比べ、テスト画像の視方向(特にロール角)に有意な差がある場合、大きな性能劣化を被る。
この制限に対処するために、VI-SLAMから得られる重力推定値を用いて、トレーニングデータセットで一般的な向きに入力画像をワープする。
これにより, 表面の正規分布推定において顕著な性能向上が達成され, その結果, 密度深度推定が実現された。
最後に、本手法はトレーニング(ScanNetとNYUv2)とテスト(Azure Kinectでコンパイル)の両方において、他の最先端アプローチよりも優れていることを示す。
関連論文リスト
- Depth Insight -- Contribution of Different Features to Indoor
Single-image Depth Estimation [8.712751056826283]
単分子深度推定設定において、既知の深さのキューの相対的寄与を定量化する。
本研究は, 形状, テクスチャ, 色, 彩度の単一特徴を分離して, 深度を推定するために, 特徴抽出技術を用いた。
論文 参考訳(メタデータ) (2023-11-16T17:38:21Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Depth Monocular Estimation with Attention-based Encoder-Decoder Network
from Single Image [7.753378095194288]
ビジョンベースのアプローチは最近多くの注目を集めており、これらの欠点を克服することができる。
本研究では,格子状アーチファクトやぼやけたエッジに悩まされている1つの単眼画像から深度マップを推定する。
我々の新しいアプローチは、最小限のオーバーヘッドで現在の画像の焦点を見つけることができ、奥行き特性の損失を避けることができる。
論文 参考訳(メタデータ) (2022-10-24T23:01:25Z) - IronDepth: Iterative Refinement of Single-View Depth using Surface
Normal and its Uncertainty [24.4764181300196]
本研究では,表面の正規化と不確実性を利用して予測深度マップを再現する新しいフレームワークを提案する。
提案手法は,NYUv2 と iBims-1 の深度および正規度の両面における最先端性能を示す。
論文 参考訳(メタデータ) (2022-10-07T16:34:20Z) - Visual Attention-based Self-supervised Absolute Depth Estimation using
Geometric Priors in Autonomous Driving [8.045833295463094]
空間的注意とチャネルの注意をすべてのステージに適用する,完全に視覚的注意に基づく奥行き(VADepth)ネットワークを導入する。
VADepthネットワークは、空間的およびチャネル的次元に沿った特徴の依存関係を長距離にわたって連続的に抽出することにより、重要な詳細を効果的に保存することができる。
KITTIデータセットの実験結果は、このアーキテクチャが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2022-05-18T08:01:38Z) - Sparse Auxiliary Networks for Unified Monocular Depth Prediction and
Completion [56.85837052421469]
コスト効率のよいセンサで得られたデータからシーン形状を推定することは、ロボットや自動運転車にとって鍵となる。
本稿では,1枚のRGB画像から,低コストな能動深度センサによるスパース計測により,深度を推定する問題について検討する。
sparse networks (sans) は,深さ予測と完了という2つのタスクをmonodepthネットワークで実行可能にする,新しいモジュールである。
論文 参考訳(メタデータ) (2021-03-30T21:22:26Z) - Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文 参考訳(メタデータ) (2021-03-07T00:08:21Z) - CodeVIO: Visual-Inertial Odometry with Learned Optimizable Dense Depth [83.77839773394106]
本稿では,軽量で密結合の深い深度ネットワークと視覚慣性オドメトリーシステムを提案する。
我々は、初期深度予測の精度を高めるために、以前にVIOから切り離されたスパース特徴を持つネットワークを提供する。
本稿では,ネットワークとコードヤコビアンでのみGPUアクセラレーションを活用しながら,シングルスレッド実行でリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2020-12-18T09:42:54Z) - Accurate RGB-D Salient Object Detection via Collaborative Learning [101.82654054191443]
RGB-Dサリエンシ検出は、いくつかの課題シナリオにおいて素晴らしい能力を示している。
本稿では,エッジ,深度,塩分濃度をより効率的に活用する新しい協調学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T04:33:36Z) - Single Image Depth Estimation Trained via Depth from Defocus Cues [105.67073923825842]
単一のRGB画像から深度を推定することはコンピュータビジョンの基本的な課題である。
この作業では、異なる視点ではなく、フォーカスキューからの奥行きに依存しています。
我々は,KITTIとMake3Dデータセットの教師あり手法と同等な結果を提示し,教師なし学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-01-14T20:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。