論文の概要: SQLdepth: Generalizable Self-Supervised Fine-Structured Monocular Depth
Estimation
- arxiv url: http://arxiv.org/abs/2309.00526v1
- Date: Fri, 1 Sep 2023 15:27:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 12:59:39.939383
- Title: SQLdepth: Generalizable Self-Supervised Fine-Structured Monocular Depth
Estimation
- Title(参考訳): sqldepth: 一般化可能な自己教師付き微細構造単眼深度推定
- Authors: Youhong Wang, Yunji Liang, Hao Xu, Shaohui Jiao, Hongkai Yu
- Abstract要約: 自律走行とロボット工学における多くの応用において、自己監督された単眼深度推定が人気を集めている。
既存のソリューションは主に、直近の視覚的特徴から深度を推定し、限定的な一般化できめ細かなシーンの詳細の復元に苦慮している。
本稿では,動きから微粒なシーン構造を効果的に学習できる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 11.661761367241041
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, self-supervised monocular depth estimation has gained popularity
with numerous applications in autonomous driving and robotics. However,
existing solutions primarily seek to estimate depth from immediate visual
features, and struggle to recover fine-grained scene details with limited
generalization. In this paper, we introduce SQLdepth, a novel approach that can
effectively learn fine-grained scene structures from motion. In SQLdepth, we
propose a novel Self Query Layer (SQL) to build a self-cost volume and infer
depth from it, rather than inferring depth from feature maps. The self-cost
volume implicitly captures the intrinsic geometry of the scene within a single
frame. Each individual slice of the volume signifies the relative distances
between points and objects within a latent space. Ultimately, this volume is
compressed to the depth map via a novel decoding approach. Experimental results
on KITTI and Cityscapes show that our method attains remarkable
state-of-the-art performance (AbsRel = $0.082$ on KITTI, $0.052$ on KITTI with
improved ground-truth and $0.106$ on Cityscapes), achieves $9.9\%$, $5.5\%$ and
$4.5\%$ error reduction from the previous best. In addition, our approach
showcases reduced training complexity, computational efficiency, improved
generalization, and the ability to recover fine-grained scene details.
Moreover, the self-supervised pre-trained and metric fine-tuned SQLdepth can
surpass existing supervised methods by significant margins (AbsRel = $0.043$,
$14\%$ error reduction). self-matching-oriented relative distance querying in
SQL improves the robustness and zero-shot generalization capability of
SQLdepth. Code and the pre-trained weights will be publicly available. Code is
available at
\href{https://github.com/hisfog/SQLdepth-Impl}{https://github.com/hisfog/SQLdepth-Impl}.
- Abstract(参考訳): 近年,自律運転やロボット工学において,自己教師付き単眼深度推定が盛んに行われている。
しかし、既存のソリューションは、視覚的特徴から深度を推定し、より詳細なシーンの詳細を限定的な一般化で再現するのに苦慮している。
本稿では,動きから微粒なシーン構造を効果的に学習できる新しい手法であるSQLdepthを紹介する。
SQLdepthでは、機能マップから深度を推定するのではなく、自己コストのボリュームを構築し、そこから深度を推定する新しいセルフクエリー層(SQL)を提案する。
自費ボリュームは、1つのフレーム内のシーンの固有の幾何学を暗黙的に捉えます。
体積の個々のスライスは、相対空間内の点と物体の間の相対距離を表す。
最終的に、この体積は新しい復号法によって深さマップに圧縮される。
KITTIとCityscapesの実験結果から,本手法は,KITTIでは0.082$,KITTIでは0.052$,Cityscapesでは0.106$,9.9\%,5.5\%,4.5\%の誤差低減を実現していることがわかった。
さらに,学習複雑性の低減,計算効率の向上,一般化の向上,細粒度シーン詳細の復元機能を示す。
さらに、自己教師付き事前学習とメトリック微調整sqldepthは、既存の教師付きメソッドをかなりのマージンで越えることができる(absrel = $0.043$, $114\%$ error reduction)。
SQLにおける自己マッチング指向の相対的距離クエリは、SQLdepthの堅牢性とゼロショットの一般化能力を改善する。
コードとトレーニング済みのウェイトは公開されます。
コードは \href{https://github.com/hisfog/sqldepth-impl}{https://github.com/hisfog/sqldepth-impl} で入手できる。
関連論文リスト
- ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation [62.600382533322325]
本研究では,新しい単分子深度推定法であるScaleDepthを提案する。
提案手法は,距離深度をシーンスケールと相対深度に分解し,セマンティック・アウェア・スケール予測モジュールを用いて予測する。
本手法は,室内と屋外の両方のシーンを統一した枠組みで距離推定する。
論文 参考訳(メタデータ) (2024-07-11T05:11:56Z) - SM4Depth: Seamless Monocular Metric Depth Estimation across Multiple Cameras and Scenes by One Model [72.0795843450604]
現在のアプローチでは、さまざまなシーンで一貫した精度を維持する上で、課題に直面している。
これらの手法は、何千万、あるいは数千万のデータからなる広範囲なデータセットに依存している。
本稿では室内と屋外の両方でシームレスに機能するSM$4$Depthについて述べる。
論文 参考訳(メタデータ) (2024-03-13T14:08:25Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Densely Constrained Depth Estimator for Monocular 3D Object Detection [48.12271792836015]
モノクロ画像から物体の正確な3D位置を推定することは、深さが不足しているため難しい問題である。
任意の方向の端から高密度な射影制約を利用する手法を提案する。
提案手法は, KITTI および WOD ベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-20T17:24:22Z) - Can Language Understand Depth? [1.7403133838762446]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、幅広い視覚タスクにおいて素晴らしい成功を収めている。
DepthCLIPと呼ばれるゼロショット単眼深度推定にCLIPを適用することを提案する。
論文 参考訳(メタデータ) (2022-07-03T16:51:11Z) - DnD: Dense Depth Estimation in Crowded Dynamic Indoor Scenes [68.38952377590499]
複雑な屋内環境の中を移動する単眼カメラから奥行きを推定するための新しい手法を提案する。
提案手法は,静的な背景と複数の移動する人物からなるシーン全体にわたる絶対規模の深度マップを推定する。
論文 参考訳(メタデータ) (2021-08-12T09:12:39Z) - Occlusion-Aware Depth Estimation with Adaptive Normal Constraints [85.44842683936471]
カラービデオから多フレーム深度を推定する新しい学習手法を提案する。
本手法は深度推定精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2020-04-02T07:10:45Z) - Don't Forget The Past: Recurrent Depth Estimation from Monocular Video [92.84498980104424]
私たちは3つの異なる種類の深さ推定を共通のフレームワークに組み込んだ。
提案手法は, 時系列の深度マップを生成する。
モノクロビデオにのみ適用したり、異なる種類のスパース深度パターンと組み合わせたりすることができる。
論文 参考訳(メタデータ) (2020-01-08T16:50:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。