論文の概要: Crafting Monocular Cues and Velocity Guidance for Self-Supervised
Multi-Frame Depth Learning
- arxiv url: http://arxiv.org/abs/2208.09170v1
- Date: Fri, 19 Aug 2022 06:32:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-22 17:06:09.562064
- Title: Crafting Monocular Cues and Velocity Guidance for Self-Supervised
Multi-Frame Depth Learning
- Title(参考訳): 自己教師付きマルチフレーム深層学習のための単眼手技と速度指導
- Authors: Xiaofeng Wang and Zheng Zhu and Guan Huang and Xu Chi and Yun Ye and
Ziwei Chen and Xingang Wang
- Abstract要約: 自己監督単分子法は、弱いテクスチャ面や反射物体の深度情報を効率的に学習することができる。
対照的に、マルチフレーム深度推定法は、マルチビューステレオの成功により、深度精度を向上させる。
我々は,MOVEDepthを提案する。MOn Eye cues と VE ガイダンスを利用して,多フレーム深度学習を改善する。
- 参考スコア(独自算出の注目度): 22.828829870704006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised monocular methods can efficiently learn depth information of
weakly textured surfaces or reflective objects. However, the depth accuracy is
limited due to the inherent ambiguity in monocular geometric modeling. In
contrast, multi-frame depth estimation methods improve the depth accuracy
thanks to the success of Multi-View Stereo (MVS), which directly makes use of
geometric constraints. Unfortunately, MVS often suffers from texture-less
regions, non-Lambertian surfaces, and moving objects, especially in real-world
video sequences without known camera motion and depth supervision. Therefore,
we propose MOVEDepth, which exploits the MOnocular cues and VElocity guidance
to improve multi-frame Depth learning. Unlike existing methods that enforce
consistency between MVS depth and monocular depth, MOVEDepth boosts multi-frame
depth learning by directly addressing the inherent problems of MVS. The key of
our approach is to utilize monocular depth as a geometric priority to construct
MVS cost volume, and adjust depth candidates of cost volume under the guidance
of predicted camera velocity. We further fuse monocular depth and MVS depth by
learning uncertainty in the cost volume, which results in a robust depth
estimation against ambiguity in multi-view geometry. Extensive experiments show
MOVEDepth achieves state-of-the-art performance: Compared with Monodepth2 and
PackNet, our method relatively improves the depth accuracy by 20\% and 19.8\%
on the KITTI benchmark. MOVEDepth also generalizes to the more challenging DDAD
benchmark, relatively outperforming ManyDepth by 7.2\%. The code is available
at https://github.com/JeffWang987/MOVEDepth.
- Abstract(参考訳): 自己教師付き単眼法は、弱いテクスチャ表面や反射対象の深さ情報を効率的に学習することができる。
しかし,単眼幾何モデリングに固有のあいまいさのため,深さ精度は限られている。
対照的に、マルチフレーム深度推定法は、幾何学的制約を直接利用するマルチビューステレオ(mvs)の成功により、深度精度を向上させる。
残念ながらmvsはテクスチャのない領域、非ランバート曲面、移動物体、特にカメラの動きや深度の監督がない実世界のビデオシーケンスに苦しむことが多い。
そこで本研究では,単眼手がかりと速度指導を活用し,マルチフレーム深層学習を改善するmovedepthを提案する。
MVS深度と単眼深度との整合性を強制する既存の方法とは異なり、MOVEDepthはMVS固有の問題に直接対処することで、多眼深度学習を促進する。
提案手法の鍵は,mvsコストボリュームの幾何学的優先順位として単眼深度を活用し,カメラ速度予測の指導下でコスト体積の深さ候補を調整することである。
さらに,コストボリュームの不確かさを学習することにより,単分子深度とMVS深度を融合させ,マルチビュー幾何におけるあいまいさに対して頑健な深度推定を行う。
提案手法はMonodepth2 と PackNet と比較して,KITTI ベンチマークの深さ精度を 20 % と 19.8 % で相対的に改善する。
MOVEDepthはまた、より難しいDDADベンチマークに一般化し、MaryDepthを7.2\%上回る。
コードはhttps://github.com/JeffWang987/MOVEDepth.comで公開されている。
関連論文リスト
- Marigold-DC: Zero-Shot Monocular Depth Completion with Guided Diffusion [51.69876947593144]
奥行き完了のための既存の手法は、厳密に制約された設定で動作する。
単眼深度推定の進歩に触発されて,画像条件の深度マップ生成として深度補完を再構成した。
Marigold-DCは、単分子深度推定のための事前訓練された潜伏拡散モデルを構築し、試験時間ガイダンスとして深度観測を注入する。
論文 参考訳(メタデータ) (2024-12-18T00:06:41Z) - Align3R: Aligned Monocular Depth Estimation for Dynamic Videos [50.28715151619659]
動的ビデオの時間的一貫した深度マップを推定するために,Align3Rと呼ばれる新しいビデオ深度推定法を提案する。
我々のキーとなる考え方は、最近のDUSt3Rモデルを用いて、異なる時間ステップの単分子深度マップを整列させることである。
実験により、Align3Rは一貫したビデオ深度を推定し、カメラはベースライン法よりも優れた性能を持つ単眼ビデオのポーズを示す。
論文 参考訳(メタデータ) (2024-12-04T07:09:59Z) - Manydepth2: Motion-Aware Self-Supervised Multi-Frame Monocular Depth Estimation in Dynamic Scenes [45.070725750859786]
動的オブジェクトと静的背景の両方に対して正確な深度推定を実現するため,Marydepth2を提案する。
動的コンテンツによって引き起こされる課題に対処するために、光学的流れと粗い単分子深度を取り入れて擬似静的参照フレームを作成する。
このフレームを使用して、バニラターゲットフレームと協調してモーション対応のコストボリュームを構築する。
論文 参考訳(メタデータ) (2023-12-23T14:36:27Z) - Constraining Depth Map Geometry for Multi-View Stereo: A Dual-Depth
Approach with Saddle-shaped Depth Cells [23.345139129458122]
同じ深度予測誤差を用いても、異なる深度ジオメトリには大きな性能ギャップがあることが示される。
サドル形状のセルからなる理想的な深度幾何学を導入し, 予測深度マップは地表面を上下に振動する。
また,本手法は,MVSにおける深度幾何学の新たな研究方向を示す。
論文 参考訳(メタデータ) (2023-07-18T11:37:53Z) - Monocular Visual-Inertial Depth Estimation [66.71452943981558]
単眼深度推定と視覚慣性計測を統合した視覚慣性深度推定パイプラインを提案する。
提案手法は, 疎度度に対する大域的スケールとシフトアライメントを行い, 続いて学習に基づく高密度アライメントを行う。
本研究では,TartanAir と VOID のデータセットを用いて,密集したスケールアライメントによるRMSE の最大30%の削減を観測した。
論文 参考訳(メタデータ) (2023-03-21T18:47:34Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Improving Monocular Visual Odometry Using Learned Depth [84.05081552443693]
単眼深度推定を応用して視力計測(VO)を改善する枠組みを提案する。
我々のフレームワークの中核は、多様なシーンに対して強力な一般化能力を持つ単眼深度推定モジュールである。
現在の学習型VO法と比較して,本手法は多様なシーンに対してより強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-04-04T06:26:46Z) - Learning Occlusion-Aware Coarse-to-Fine Depth Map for Self-supervised
Monocular Depth Estimation [11.929584800629673]
自己教師付き単眼深度推定のためのOcclusion-aware Coarse-to-Fine Depth Mapを学習するための新しいネットワークを提案する。
提案したOCFD-Netは,粗度深度マップの学習に離散深度制約を用いるだけでなく,シーン深度残差の学習にも連続深度制約を用いる。
論文 参考訳(メタデータ) (2022-03-21T12:43:42Z) - DDL-MVS: Depth Discontinuity Learning for MVS Networks [0.5735035463793007]
本稿では,MVS法における深度不連続学習を提案する。
当社のアイデアを検証し,既存の学習ベースのMVSパイプラインに戦略を組み込むことが可能であることを実証する。
論文 参考訳(メタデータ) (2022-03-02T20:25:31Z) - Video Depth Estimation by Fusing Flow-to-Depth Proposals [65.24533384679657]
本稿では,映像深度推定のためのフロー・ツー・ディープス・レイヤの異なる手法を提案する。
モデルは、フロー・トゥ・ディープス層、カメラ・ポーズ・リファインメント・モジュール、ディープ・フュージョン・ネットワークから構成される。
提案手法は,最先端の深度推定法より優れ,合理的なデータセット一般化能力を有する。
論文 参考訳(メタデータ) (2019-12-30T10:45:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。