Fugu-MT 論文翻訳(概要): Crafting Monocular Cues and Velocity Guidance for Self-Supervised Multi-Frame Depth Learning

論文の概要: Crafting Monocular Cues and Velocity Guidance for Self-Supervised Multi-Frame Depth Learning

arxiv url: http://arxiv.org/abs/2208.09170v1
Date: Fri, 19 Aug 2022 06:32:06 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-22 17:06:09.562064
Title: Crafting Monocular Cues and Velocity Guidance for Self-Supervised Multi-Frame Depth Learning
Title（参考訳）: 自己教師付きマルチフレーム深層学習のための単眼手技と速度指導
Authors: Xiaofeng Wang and Zheng Zhu and Guan Huang and Xu Chi and Yun Ye and Ziwei Chen and Xingang Wang
Abstract要約: 自己監督単分子法は、弱いテクスチャ面や反射物体の深度情報を効率的に学習することができる。対照的に、マルチフレーム深度推定法は、マルチビューステレオの成功により、深度精度を向上させる。我々は,MOVEDepthを提案する。MOn Eye cues と VE ガイダンスを利用して,多フレーム深度学習を改善する。
参考スコア（独自算出の注目度）: 22.828829870704006
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Self-supervised monocular methods can efficiently learn depth information of weakly textured surfaces or reflective objects. However, the depth accuracy is limited due to the inherent ambiguity in monocular geometric modeling. In contrast, multi-frame depth estimation methods improve the depth accuracy thanks to the success of Multi-View Stereo (MVS), which directly makes use of geometric constraints. Unfortunately, MVS often suffers from texture-less regions, non-Lambertian surfaces, and moving objects, especially in real-world video sequences without known camera motion and depth supervision. Therefore, we propose MOVEDepth, which exploits the MOnocular cues and VElocity guidance to improve multi-frame Depth learning. Unlike existing methods that enforce consistency between MVS depth and monocular depth, MOVEDepth boosts multi-frame depth learning by directly addressing the inherent problems of MVS. The key of our approach is to utilize monocular depth as a geometric priority to construct MVS cost volume, and adjust depth candidates of cost volume under the guidance of predicted camera velocity. We further fuse monocular depth and MVS depth by learning uncertainty in the cost volume, which results in a robust depth estimation against ambiguity in multi-view geometry. Extensive experiments show MOVEDepth achieves state-of-the-art performance: Compared with Monodepth2 and PackNet, our method relatively improves the depth accuracy by 20\% and 19.8\% on the KITTI benchmark. MOVEDepth also generalizes to the more challenging DDAD benchmark, relatively outperforming ManyDepth by 7.2\%. The code is available at https://github.com/JeffWang987/MOVEDepth.
Abstract（参考訳）: 自己教師付き単眼法は、弱いテクスチャ表面や反射対象の深さ情報を効率的に学習することができる。しかし,単眼幾何モデリングに固有のあいまいさのため,深さ精度は限られている。対照的に、マルチフレーム深度推定法は、幾何学的制約を直接利用するマルチビューステレオ(mvs)の成功により、深度精度を向上させる。残念ながらmvsはテクスチャのない領域、非ランバート曲面、移動物体、特にカメラの動きや深度の監督がない実世界のビデオシーケンスに苦しむことが多い。そこで本研究では,単眼手がかりと速度指導を活用し,マルチフレーム深層学習を改善するmovedepthを提案する。 MVS深度と単眼深度との整合性を強制する既存の方法とは異なり、MOVEDepthはMVS固有の問題に直接対処することで、多眼深度学習を促進する。提案手法の鍵は,mvsコストボリュームの幾何学的優先順位として単眼深度を活用し,カメラ速度予測の指導下でコスト体積の深さ候補を調整することである。さらに,コストボリュームの不確かさを学習することにより,単分子深度とMVS深度を融合させ,マルチビュー幾何におけるあいまいさに対して頑健な深度推定を行う。提案手法はMonodepth2 と PackNet と比較して,KITTI ベンチマークの深さ精度を 20 % と 19.8 % で相対的に改善する。 MOVEDepthはまた、より難しいDDADベンチマークに一般化し、MaryDepthを7.2\%上回る。コードはhttps://github.com/JeffWang987/MOVEDepth.comで公開されている。

関連論文リスト

Multi-view Reconstruction via SfM-guided Monocular Depth Estimation [92.89227629434316]
マルチビュー幾何再構成のための新しい手法を提案する。深度推定プロセスに、より強力なマルチビューであるSfM情報を組み込む。本手法は, 従来の単分子深度推定法と比較して, 深度推定の精度を著しく向上させる。
論文参考訳（メタデータ） (2025-03-18T17:54:06Z)
Marigold-DC: Zero-Shot Monocular Depth Completion with Guided Diffusion [51.69876947593144]
奥行き完了のための既存の手法は、厳密に制約された設定で動作する。単眼深度推定の進歩に触発されて,画像条件の深度マップ生成として深度補完を再構成した。 Marigold-DCは、単分子深度推定のための事前訓練された潜伏拡散モデルを構築し、試験時間ガイダンスとして深度観測を注入する。
論文参考訳（メタデータ） (2024-12-18T00:06:41Z)
Align3R: Aligned Monocular Depth Estimation for Dynamic Videos [50.28715151619659]
動的ビデオの時間的一貫した深度マップを推定するために,Align3Rと呼ばれる新しいビデオ深度推定法を提案する。我々のキーとなる考え方は、最近のDUSt3Rモデルを用いて、異なる時間ステップの単分子深度マップを整列させることである。実験により、Align3Rは一貫したビデオ深度を推定し、カメラはベースライン法よりも優れた性能を持つ単眼ビデオのポーズを示す。
論文参考訳（メタデータ） (2024-12-04T07:09:59Z)
Manydepth2: Motion-Aware Self-Supervised Multi-Frame Monocular Depth Estimation in Dynamic Scenes [45.092076587934464]
動的オブジェクトと静的背景の両方に対して正確な深度推定を実現するため,Marydepth2を提案する。動的コンテンツによって引き起こされる課題に対処するために、光学的流れと粗い単分子深度を取り入れて擬似静的参照フレームを作成する。このフレームを使用して、バニラターゲットフレームと協調してモーション対応のコストボリュームを構築する。
論文参考訳（メタデータ） (2023-12-23T14:36:27Z)
Constraining Depth Map Geometry for Multi-View Stereo: A Dual-Depth Approach with Saddle-shaped Depth Cells [23.345139129458122]
同じ深度予測誤差を用いても、異なる深度ジオメトリには大きな性能ギャップがあることが示される。サドル形状のセルからなる理想的な深度幾何学を導入し, 予測深度マップは地表面を上下に振動する。また,本手法は,MVSにおける深度幾何学の新たな研究方向を示す。
論文参考訳（メタデータ） (2023-07-18T11:37:53Z)
Monocular Visual-Inertial Depth Estimation [66.71452943981558]
単眼深度推定と視覚慣性計測を統合した視覚慣性深度推定パイプラインを提案する。提案手法は, 疎度度に対する大域的スケールとシフトアライメントを行い, 続いて学習に基づく高密度アライメントを行う。本研究では,TartanAir と VOID のデータセットを用いて,密集したスケールアライメントによるRMSE の最大30%の削減を観測した。
論文参考訳（メタデータ） (2023-03-21T18:47:34Z)
SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文参考訳（メタデータ） (2022-11-07T16:17:47Z)
Uncertainty Guided Depth Fusion for Spike Camera [49.41822923588663]
スパイクカメラのための単分子およびステレオ深度推定ネットワークの予測を融合させる新しい不確かさ誘導深度融合(UGDF)フレームワークを提案する。我々のフレームワークは、ステレオスパイク深さ推定がより近い範囲でより良い結果をもたらすという事実に動機づけられている。従来のカメラ深度推定よりもスパイク深度推定の利点を示すため、我々はCitySpike20Kというスパイク深度データセットに貢献する。
論文参考訳（メタデータ） (2022-08-26T13:04:01Z)
Improving Monocular Visual Odometry Using Learned Depth [84.05081552443693]
単眼深度推定を応用して視力計測(VO)を改善する枠組みを提案する。我々のフレームワークの中核は、多様なシーンに対して強力な一般化能力を持つ単眼深度推定モジュールである。現在の学習型VO法と比較して,本手法は多様なシーンに対してより強力な一般化能力を示す。
論文参考訳（メタデータ） (2022-04-04T06:26:46Z)
Learning Occlusion-Aware Coarse-to-Fine Depth Map for Self-supervised Monocular Depth Estimation [11.929584800629673]
自己教師付き単眼深度推定のためのOcclusion-aware Coarse-to-Fine Depth Mapを学習するための新しいネットワークを提案する。提案したOCFD-Netは,粗度深度マップの学習に離散深度制約を用いるだけでなく,シーン深度残差の学習にも連続深度制約を用いる。
論文参考訳（メタデータ） (2022-03-21T12:43:42Z)
DDL-MVS: Depth Discontinuity Learning for MVS Networks [0.5735035463793007]
本稿では,MVS法における深度不連続学習を提案する。当社のアイデアを検証し,既存の学習ベースのMVSパイプラインに戦略を組み込むことが可能であることを実証する。
論文参考訳（メタデータ） (2022-03-02T20:25:31Z)
Robust Consistent Video Depth Estimation [65.53308117778361]
本稿では,単眼映像からカメラのカメラポーズと密集した深度マップを推定するアルゴリズムを提案する。本手法は,(1)低周波大規模アライメントのためのフレキシブルな変形-スプラインと(2)細部奥行き詳細の高周波アライメントのための幾何認識深度フィルタリングとを組み合わせた手法である。従来の手法とは対照的に, カメラのポーズを入力として必要とせず, かなりの音量, 揺動, 動きのぼやき, 転がりシャッター変形を含む携帯のハンドヘルドキャプチャに頑健な再構成を実現する。
論文参考訳（メタデータ） (2020-12-10T18:59:48Z)
Video Depth Estimation by Fusing Flow-to-Depth Proposals [65.24533384679657]
本稿では,映像深度推定のためのフロー・ツー・ディープス・レイヤの異なる手法を提案する。モデルは、フロー・トゥ・ディープス層、カメラ・ポーズ・リファインメント・モジュール、ディープ・フュージョン・ネットワークから構成される。提案手法は,最先端の深度推定法より優れ,合理的なデータセット一般化能力を有する。
論文参考訳（メタデータ） (2019-12-30T10:45:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。