論文の概要: Boosting Monocular Depth Estimation with Sparse Guided Points
- arxiv url: http://arxiv.org/abs/2202.01470v1
- Date: Thu, 3 Feb 2022 08:52:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-04 14:26:35.919289
- Title: Boosting Monocular Depth Estimation with Sparse Guided Points
- Title(参考訳): スパースガイドポイントによる単眼深度推定の高速化
- Authors: Guangkai Xu, Wei Yin, Hao Chen, Kai Cheng, Feng Zhao, Chunhua Shen
- Abstract要約: 本研究では, 局所重み付き線形回帰戦略を改良し, スパース基底の真理を生かし, フレキシブルな深度変換を生成する。
この戦略を適用することで、5つのゼロショットデータセットの最新の最先端メソッドに対して、大幅な改善(最大50%以上)を達成できます。
ResNet50に基づく我々のモデルは、回復戦略の助けを借りて最先端のDPT ViT-Largeモデルよりも優れています。
- 参考スコア(独自算出の注目度): 67.96827539201071
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Existing monocular depth estimation shows excellent robustness in the wild,
but the affine-invariant prediction requires aligning with the ground truth
globally while being converted into the metric depth. In this work, we firstly
propose a modified locally weighted linear regression strategy to leverage
sparse ground truth and generate a flexible depth transformation to correct the
coarse misalignment brought by global recovery strategy. Applying this
strategy, we achieve significant improvement (more than 50% at most) over most
recent state-of-the-art methods on five zero-shot datasets. Moreover, we train
a robust depth estimation model with 6.3 million data and analyze the training
process by decoupling the inaccuracy into coarse misalignment inaccuracy and
detail missing inaccuracy. As a result, our model based on ResNet50 even
outperforms the state-of-the-art DPT ViT-Large model with the help of our
recovery strategy. In addition to accuracy, the consistency is also boosted for
simple per-frame video depth estimation. Compared with monocular depth
estimation, robust video depth estimation, and depth completion methods, our
pipeline obtains state-of-the-art performance on video depth estimation without
any post-processing. Experiments of 3D scene reconstruction from consistent
video depth are conducted for intuitive comparison as well.
- Abstract(参考訳): 既存の単眼深度の推定は野生において優れたロバスト性を示すが、アフィン不変量予測は計量深度に変換されながら、地球規模での基底真理と一致する必要がある。
本研究では,まず,局所重み付き線形回帰戦略を改良し,スパース・グラウンド・真理を活用し,グローバル・リカバリ戦略によってもたらされる粗悪な不一致を補正するフレキシブルな深さ変換を生成する。
この戦略を適用することで、5つのゼロショットデータセットの最新の最先端メソッドに対して、大幅な改善(最大50%以上)を達成できます。
さらに,630万データを用いたロバストな深さ推定モデルをトレーニングし,不正確性を粗悪な不正確な不正確さと詳細の欠如に分離して,トレーニングプロセスを解析する。
その結果、ResNet50に基づくモデルは、回復戦略の助けを借りて最先端のDPT ViT-Largeモデルよりも優れています。
精度に加えて、フレーム毎のビデオ深度推定にも一貫性が強化される。
単眼深度推定,ロバストなビデオ深度推定,および深度補完法と比較して,我々のパイプラインは,ポストプロセッシングなしで映像深度推定の最先端性能を得る。
映像奥行きの一致から3次元シーンの再構成実験を行い,直観的比較を行った。
関連論文リスト
- FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - Unbiased 4D: Monocular 4D Reconstruction with a Neural Deformation Model [76.64071133839862]
モノクロRGBビデオから一般的なデフォーミングシーンをキャプチャすることは、多くのコンピュータグラフィックスや視覚アプリケーションにとって不可欠である。
提案手法であるUb4Dは、大きな変形を処理し、閉塞領域での形状補完を行い、可変ボリュームレンダリングを用いて、単眼のRGBビデオを直接操作することができる。
我々の新しいデータセットの結果は公開され、表面の復元精度と大きな変形に対する堅牢性の観点から、技術の現状が明らかに改善されていることを実証する。
論文 参考訳(メタデータ) (2022-06-16T17:59:54Z) - Real-time dense 3D Reconstruction from monocular video data captured by
low-cost UAVs [0.3867363075280543]
リアルタイム3d再構築は,ナビゲーションや緊急時のライブ評価など,多数のアプリケーションにメリットがある環境の高速密マッピングを可能にする。
ほとんどのリアルタイム対応のアプローチとは対照的に、我々のアプローチは明示的な深度センサーを必要としない。
建物周辺を斜め視で飛行する無人航空機(UAV)の自己動作を利用して、選択された画像のカメラ軌道と深度の両方を、十分な新規な内容で推定します。
論文 参考訳(メタデータ) (2021-04-21T13:12:17Z) - Learning monocular 3D reconstruction of articulated categories from
motion [39.811816510186475]
ビデオの自己スーパービジョンは、動きに基づくサイクルロスによる連続した3次元再構成の一貫性を強要する。
少数の局所的学習可能なハンドルの変位を介して3D表面を制御する3Dテンプレート変形の解釈可能なモデルを紹介します。
多様な形状, 視点, テクスチャを具体化して, 複数の対象カテゴリーのテクスチャを再現する。
論文 参考訳(メタデータ) (2021-03-30T13:50:27Z) - Learning to Recover 3D Scene Shape from a Single Image [98.20106822614392]
まず,未知のスケールまで深さを予測し,単一の単眼画像からシフトする2段階フレームワークを提案する。
そして、3dポイントクラウドエンコーダを使って深度シフトと焦点距離を予測し、リアルな3dシーンの形状を復元します。
論文 参考訳(メタデータ) (2020-12-17T02:35:13Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。