論文の概要: Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image
- arxiv url: http://arxiv.org/abs/2208.13241v1
- Date: Sun, 28 Aug 2022 16:20:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 13:58:04.059854
- Title: Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image
- Title(参考訳): 単眼画像からの3次元シーン形状の高精度復元に向けて
- Authors: Wei Yin, Jianming Zhang, Oliver Wang, Simon Nicklaus, Simon Chen,
Yifan Liu, Chunhua Shen
- Abstract要約: まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 91.71077190961688
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite significant progress made in the past few years, challenges remain
for depth estimation using a single monocular image. First, it is nontrivial to
train a metric-depth prediction model that can generalize well to diverse
scenes mainly due to limited training data. Thus, researchers have built
large-scale relative depth datasets that are much easier to collect. However,
existing relative depth estimation models often fail to recover accurate 3D
scene shapes due to the unknown depth shift caused by training with the
relative depth data. We tackle this problem here and attempt to estimate
accurate scene shapes by training on large-scale relative depth data, and
estimating the depth shift. To do so, we propose a two-stage framework that
first predicts depth up to an unknown scale and shift from a single monocular
image, and then exploits 3D point cloud data to predict the depth shift and the
camera's focal length that allow us to recover 3D scene shapes. As the two
modules are trained separately, we do not need strictly paired training data.
In addition, we propose an image-level normalized regression loss and a
normal-based geometry loss to improve training with relative depth annotation.
We test our depth model on nine unseen datasets and achieve state-of-the-art
performance on zero-shot evaluation. Code is available at: https://git.io/Depth
- Abstract(参考訳): 過去数年間で大きく進歩したにもかかわらず、単一の単眼画像を用いた深度推定の課題は残る。
第一に、限られたトレーニングデータによって、様々な場面によく一般化できるメートル法深度予測モデルを訓練するのは、簡単ではない。
このように、研究者はより収集が容易な大規模な相対深度データセットを構築した。
しかし,既存の相対深度推定モデルは,相対深度データによるトレーニングによる未知の深度変化により,正確な3次元シーン形状の復元に失敗することが多い。
この問題に対処し,大規模相対深度データをトレーニングし,深度変化を推定することにより,正確なシーン形状を推定しようとする。
そこで本研究では,まず深度を未知のスケールまで予測し,単一の単眼画像からシフトし,さらに3dポイントの雲データを用いて深度シフトと焦点距離を予測し,3dシーン形状の復元を可能にする2段階フレームワークを提案する。
2つのモジュールは別々にトレーニングされているため、厳密なペアトレーニングデータを必要としない。
さらに,画像レベルの正規化回帰損失と正規化幾何損失を提案し,相対深度アノテーションによるトレーニングを改善する。
未知の9つのデータセットで深度モデルをテストし,ゼロショット評価で最先端の性能を得る。
コードは、https://git.io/depthで入手できる。
関連論文リスト
- Robust Geometry-Preserving Depth Estimation Using Differentiable
Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。
包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。
我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文 参考訳(メタデータ) (2023-09-18T12:36:39Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Depth Is All You Need for Monocular 3D Detection [29.403235118234747]
教師なしの方法で対象領域に深度表現を合わせることを提案する。
本手法では, トレーニング時間中に利用可能なLiDARやRGBビデオを利用して深度表現を微調整し, 改良された3D検出器を実現する。
論文 参考訳(メタデータ) (2022-10-05T18:12:30Z) - Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文 参考訳(メタデータ) (2021-03-07T00:08:21Z) - Learning to Recover 3D Scene Shape from a Single Image [98.20106822614392]
まず,未知のスケールまで深さを予測し,単一の単眼画像からシフトする2段階フレームワークを提案する。
そして、3dポイントクラウドエンコーダを使って深度シフトと焦点距離を予測し、リアルな3dシーンの形状を復元します。
論文 参考訳(メタデータ) (2020-12-17T02:35:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。