論文の概要: Revisit Self-supervised Depth Estimation with Local Structure-from-Motion
- arxiv url: http://arxiv.org/abs/2407.19166v2
- Date: Tue, 6 Aug 2024 18:52:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 17:40:15.885716
- Title: Revisit Self-supervised Depth Estimation with Local Structure-from-Motion
- Title(参考訳): 局所構造を用いた自己監督深度推定の再検討
- Authors: Shengjie Zhu, Xiaoming Liu,
- Abstract要約: 自己教師付き深度推定とSfM(Structure-from-Motion)の両方がRGBビデオからシーン深度を復元する。
本研究は,局所SfMによる代替スキームを提案する。
すでにSoTAが監督する深度と対応モデルの恩恵を受けています。
- 参考スコア(独自算出の注目度): 11.37743577100943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Both self-supervised depth estimation and Structure-from-Motion (SfM) recover scene depth from RGB videos. Despite sharing a similar objective, the two approaches are disconnected. Prior works of self-supervision backpropagate losses defined within immediate neighboring frames. Instead of learning-through-loss, this work proposes an alternative scheme by performing local SfM. First, with calibrated RGB or RGB-D images, we employ a depth and correspondence estimator to infer depthmaps and pair-wise correspondence maps. Then, a novel bundle-RANSAC-adjustment algorithm jointly optimizes camera poses and one depth adjustment for each depthmap. Finally, we fix camera poses and employ a NeRF, however, without a neural network, for dense triangulation and geometric verification. Poses, depth adjustments, and triangulated sparse depths are our outputs. For the first time, we show self-supervision within $5$ frames already benefits SoTA supervised depth and correspondence models. The project page is held in the link (https://shngjz.github.io/SSfM.github.io/).
- Abstract(参考訳): 自己教師付き深度推定とSfM(Structure-from-Motion)の両方がRGBビデオからシーン深度を復元する。
同様の目的を共有しながらも、2つのアプローチは切り離されている。
自己超越的バックプロパゲート損失の以前の研究は、隣接するフレーム内で定義された。
この研究は、学習スルーロスの代わりに、局所的なSfMを実行することで代替のスキームを提案する。
まず、RGBまたはRGB-D画像の校正により、深度マップとペアワイド対応マップを推定するために深度・対応推定器を用いる。
そして、新しいバンドル-RANSAC調整アルゴリズムは、カメラポーズと深度マップの1つの深さ調整を共同で最適化する。
最後に、カメラのポーズを修正し、ニューラルネットワークを使わずにNeRFを用いて、密接な三角測量と幾何的検証を行う。
ポス、深さ調整、三角形のスパース深度は私たちの出力です。
初めて、SoTAが監督する深度と対応モデルに既に利点がある5ドルフレームの自己超越を示す。
プロジェクトページはリンクで保持されている(https://shngjz.github.io/SSfM.github.io/)。
関連論文リスト
- DoubleTake: Geometry Guided Depth Estimation [17.464549832122714]
RGB画像の列から深度を推定することは、基本的なコンピュータビジョンタスクである。
本稿では,現在のカメラ位置から深度マップとして描画された,ボリューム特徴と先行幾何学のヒントを組み合わせた再構成手法を提案する。
本手法は, オフライン・インクリメンタルな評価シナリオにおいて, 対話的な速度, 最先端の深度推定, および3次元シーンで動作可能であることを示す。
論文 参考訳(メタデータ) (2024-06-26T14:29:05Z) - Temporal Lidar Depth Completion [0.08192907805418582]
PENetは, 再発の恩恵を受けるために, 最新の手法であるPENetをどう修正するかを示す。
提案アルゴリズムは,KITTI深度補完データセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2024-06-17T08:25:31Z) - Pyramid Deep Fusion Network for Two-Hand Reconstruction from RGB-D Images [11.100398985633754]
両手で高密度メッシュを復元するためのエンドツーエンドフレームワークを提案する。
我々のフレームワークはResNet50とPointNet++を使って、RGBとpoint cloudから機能を派生しています。
また,異なるスケールで特徴を集約する新しいピラミッド深層核融合ネットワーク (PDFNet) も導入した。
論文 参考訳(メタデータ) (2023-07-12T09:33:21Z) - Depth Estimation and Image Restoration by Deep Learning from Defocused
Images [2.6599014990168834]
2-headed Depth Estimation and Deblurring Network (2HDED:NET)は、Defocus(DFD)ネットワークからの従来のDepthを拡張し、deepブランチと同じエンコーダを共有するdeblurringブランチを持つ。
提案手法は,室内と屋外のシーンの2つのベンチマーク(NYU-v2とMake3D)で試験に成功した。
論文 参考訳(メタデータ) (2023-02-21T15:28:42Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - P3Depth: Monocular Depth Estimation with a Piecewise Planarity Prior [133.76192155312182]
本研究では,コプラナー画素からの情報を選択的に活用して予測深度を改善する手法を提案する。
本手法の広範な評価により, 教師付き単分子深度推定法において, 新たな手法の確立が期待できる。
論文 参考訳(メタデータ) (2022-04-05T10:03:52Z) - GCNDepth: Self-supervised Monocular Depth Estimation based on Graph
Convolutional Network [11.332580333969302]
この研究は、深度マップの量的および質的な理解を高めるために、一連の改善を伴う新しいソリューションをもたらす。
グラフ畳み込みネットワーク(GCN)は、非ユークリッドデータ上の畳み込みを処理でき、位相構造内の不規則な画像領域に適用することができる。
提案手法は,公的なKITTIおよびMake3Dデータセットに対して,高い予測精度で89%の精度で同等かつ有望な結果を与える。
論文 参考訳(メタデータ) (2021-12-13T16:46:25Z) - Unsupervised Depth Completion with Calibrated Backprojection Layers [79.35651668390496]
画像とスパース点雲から深度を推定するディープニューラルネットワークアーキテクチャを提案する。
LIDARや他のレンジセンサーから得られるビデオストリームとそれに対応するスパース点雲と、カメラの固有のキャリブレーションパラメータを用いてトレーニングする。
推論時に、トレーニングに用いるものと異なるカメラの校正を、スパース点雲と1つの画像とともにネットワークへの入力として行う。
論文 参考訳(メタデータ) (2021-08-24T05:41:59Z) - Depth Completion Using a View-constrained Deep Prior [73.21559000917554]
近年の研究では、畳み込みニューラルネットワーク(CNN)の構造が、自然画像に有利な強い先行性をもたらすことが示されている。
この前者はディープ・イメージ・先行 (DIP) と呼ばれ、画像の装飾や塗装といった逆問題において有効な正則化器である。
我々は、DIPの概念を深度画像に拡張し、色画像とノイズと不完全な目標深度マップから、CNNネットワーク構造を先行して復元された深度マップを再構成する。
論文 参考訳(メタデータ) (2020-01-21T21:56:01Z) - Single Image Depth Estimation Trained via Depth from Defocus Cues [105.67073923825842]
単一のRGB画像から深度を推定することはコンピュータビジョンの基本的な課題である。
この作業では、異なる視点ではなく、フォーカスキューからの奥行きに依存しています。
我々は,KITTIとMake3Dデータセットの教師あり手法と同等な結果を提示し,教師なし学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-01-14T20:22:54Z) - Don't Forget The Past: Recurrent Depth Estimation from Monocular Video [92.84498980104424]
私たちは3つの異なる種類の深さ推定を共通のフレームワークに組み込んだ。
提案手法は, 時系列の深度マップを生成する。
モノクロビデオにのみ適用したり、異なる種類のスパース深度パターンと組み合わせたりすることができる。
論文 参考訳(メタデータ) (2020-01-08T16:50:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。