論文の概要: Revisit Self-supervised Depth Estimation with Local Structure-from-Motion
- arxiv url: http://arxiv.org/abs/2407.19166v1
- Date: Sat, 27 Jul 2024 04:37:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 19:31:05.597888
- Title: Revisit Self-supervised Depth Estimation with Local Structure-from-Motion
- Title(参考訳): 局所構造を用いた自己監督深度推定の再検討
- Authors: Shengjie Zhu, Xiaoming Liu,
- Abstract要約: 自己教師付き深度推定とSfM(Structure-from-Motion)の両方がRGBビデオからシーン深度を復元する。
本研究は,局所SfMによる代替スキームを提案する。
初めて、SoTAが監督する深度と対応モデルに既に利点がある5ドルフレームの自己超越を示す。
- 参考スコア(独自算出の注目度): 11.37743577100943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Both self-supervised depth estimation and Structure-from-Motion (SfM) recover scene depth from RGB videos. Despite sharing a similar objective, the two approaches are disconnected. Prior works of self-supervision backpropagate losses defined within immediate neighboring frames. Instead of learning-through-loss, this work proposes an alternative scheme by performing local SfM. First, with calibrated RGB or RGB-D images, we employ a depth and correspondence estimator to infer depthmaps and pair-wise correspondence maps. Then, a novel bundle-RANSAC-adjustment algorithm jointly optimizes camera poses and one depth adjustment for each depthmap. Finally, we fix camera poses and employ a NeRF, however, without a neural network, for dense triangulation and geometric verification. Poses, depth adjustments, and triangulated sparse depths are our outputs. For the first time, we show self-supervision within $5$ frames already benefits SoTA supervised depth and correspondence models.
- Abstract(参考訳): 自己教師付き深度推定とSfM(Structure-from-Motion)の両方がRGBビデオからシーン深度を復元する。
同様の目的を共有しながらも、2つのアプローチは切り離されている。
自己超越的バックプロパゲート損失の以前の研究は、隣接するフレーム内で定義された。
この研究は、学習スルーロスの代わりに、局所的なSfMを実行することで代替のスキームを提案する。
まず、RGBまたはRGB-D画像の校正により、深度マップとペアワイド対応マップを推定するために深度・対応推定器を用いる。
そして、新しいバンドル-RANSAC調整アルゴリズムは、カメラポーズと深度マップの1つの深さ調整を共同で最適化する。
最後に、カメラのポーズを修正し、ニューラルネットワークを使わずにNeRFを用いて、密接な三角測量と幾何的検証を行う。
ポス、深さ調整、三角形のスパース深度は私たちの出力です。
初めて、SoTAが監督する深度と対応モデルに既に利点がある5ドルフレームの自己超越を示す。
関連論文リスト
- Temporal Lidar Depth Completion [0.08192907805418582]
PENetは, 再発の恩恵を受けるために, 最新の手法であるPENetをどう修正するかを示す。
提案アルゴリズムは,KITTI深度補完データセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2024-06-17T08:25:31Z) - ARAI-MVSNet: A multi-view stereo depth estimation network with adaptive
depth range and depth interval [19.28042366225802]
マルチビューステレオ(MVS)は幾何学的コンピュータビジョンの基本的な問題である。
適応的な全画素深度範囲と深度間隔を実現するために,新しい多段粗大化フレームワークを提案する。
我々のモデルは最先端の性能を達成し、競争一般化能力を得る。
論文 参考訳(メタデータ) (2023-08-17T14:52:11Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - Gated2Gated: Self-Supervised Depth Estimation from Gated Images [22.415893281441928]
ゲーテッドカメラは、高解像度の3D深度でLiDARセンサーをスキャンする代替品として有望だ。
そこで本研究では,ゲート強度プロファイルと時間的一貫性をトレーニング信号として用いた完全自己教師型深度推定手法を提案する。
論文 参考訳(メタデータ) (2021-12-04T19:47:38Z) - Weakly-Supervised Monocular Depth Estimationwith Resolution-Mismatched
Data [73.9872931307401]
単眼深度推定ネットワークをトレーニングするための弱教師付きフレームワークを提案する。
提案フレームワークは, 共有重量単分子深度推定ネットワークと蒸留用深度再構成ネットワークから構成される。
実験結果から,本手法は教師なし・半教師付き学習ベース方式よりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2021-09-23T18:04:12Z) - Deep Two-View Structure-from-Motion Revisited [83.93809929963969]
2次元構造移動(SfM)は3次元再構成と視覚SLAMの基礎となる。
古典パイプラインの適切性を活用することで,深部2視点sfmの問題を再検討することを提案する。
本手法は,1)2つのフレーム間の密対応を予測する光フロー推定ネットワーク,2)2次元光フロー対応から相対カメラポーズを計算する正規化ポーズ推定モジュール,3)エピポーラ幾何を利用して探索空間を縮小し,密対応を洗練し,相対深度マップを推定するスケール不変深さ推定ネットワークからなる。
論文 参考訳(メタデータ) (2021-04-01T15:31:20Z) - DeepRelativeFusion: Dense Monocular SLAM using Single-Image Relative
Depth Prediction [4.9188958016378495]
本稿では,一様一貫した3次元構造を復元できる,ディープフュージョンと呼ばれる高密度単分子SLAMシステムを提案する。
視覚的SLAMを用いて、カメラのポーズと奥行きの半深度マップを確実に復元し、それから相対深度予測を用いて半深度マップを密度化し、ポーズグラフを精査する。
我々のシステムは、最先端の高密度SLAMシステムよりも、大規模なマージンによる高密度再構成精度で定量的に性能を向上する。
論文 参考訳(メタデータ) (2020-06-07T05:22:29Z) - Depth Completion Using a View-constrained Deep Prior [73.21559000917554]
近年の研究では、畳み込みニューラルネットワーク(CNN)の構造が、自然画像に有利な強い先行性をもたらすことが示されている。
この前者はディープ・イメージ・先行 (DIP) と呼ばれ、画像の装飾や塗装といった逆問題において有効な正則化器である。
我々は、DIPの概念を深度画像に拡張し、色画像とノイズと不完全な目標深度マップから、CNNネットワーク構造を先行して復元された深度マップを再構成する。
論文 参考訳(メタデータ) (2020-01-21T21:56:01Z) - Single Image Depth Estimation Trained via Depth from Defocus Cues [105.67073923825842]
単一のRGB画像から深度を推定することはコンピュータビジョンの基本的な課題である。
この作業では、異なる視点ではなく、フォーカスキューからの奥行きに依存しています。
我々は,KITTIとMake3Dデータセットの教師あり手法と同等な結果を提示し,教師なし学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-01-14T20:22:54Z) - Don't Forget The Past: Recurrent Depth Estimation from Monocular Video [92.84498980104424]
私たちは3つの異なる種類の深さ推定を共通のフレームワークに組み込んだ。
提案手法は, 時系列の深度マップを生成する。
モノクロビデオにのみ適用したり、異なる種類のスパース深度パターンと組み合わせたりすることができる。
論文 参考訳(メタデータ) (2020-01-08T16:50:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。