論文の概要: DiverseDepth: Affine-invariant Depth Prediction Using Diverse Data
- arxiv url: http://arxiv.org/abs/2002.00569v3
- Date: Sat, 28 Mar 2020 08:26:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 09:07:37.661472
- Title: DiverseDepth: Affine-invariant Depth Prediction Using Diverse Data
- Title(参考訳): ディバースディープス: ディバースデータを用いたアフィン不変深さ予測
- Authors: Wei Yin, Xinlong Wang, Chunhua Shen, Yifan Liu, Zhi Tian, Songcen Xu,
Changming Sun, Dou Renyin
- Abstract要約: 本稿では,アフィン変換に至るまでの多様なシーンにおける高品質な深度を予測できるモノクロ画像を用いた深度推定手法を提案する。
実験の結果,提案手法は,ゼロショットテスト設定と大差で8つのデータセットの先行手法より優れていた。
- 参考スコア(独自算出の注目度): 110.29043712400912
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a method for depth estimation with monocular images, which can
predict high-quality depth on diverse scenes up to an affine transformation,
thus preserving accurate shapes of a scene. Previous methods that predict
metric depth often work well only for a specific scene. In contrast, learning
relative depth (information of being closer or further) can enjoy better
generalization, with the price of failing to recover the accurate geometric
shape of the scene. In this work, we propose a dataset and methods to tackle
this dilemma, aiming to predict accurate depth up to an affine transformation
with good generalization to diverse scenes. First we construct a large-scale
and diverse dataset, termed Diverse Scene Depth dataset (DiverseDepth), which
has a broad range of scenes and foreground contents. Compared with previous
learning objectives, i.e., learning metric depth or relative depth, we propose
to learn the affine-invariant depth using our diverse dataset to ensure both
generalization and high-quality geometric shapes of scenes. Furthermore, in
order to train the model on the complex dataset effectively, we propose a
multi-curriculum learning method. Experiments show that our method outperforms
previous methods on 8 datasets by a large margin with the zero-shot test
setting, demonstrating the excellent generalization capacity of the learned
model to diverse scenes. The reconstructed point clouds with the predicted
depth show that our method can recover high-quality 3D shapes. Code and dataset
are available at: https://tinyurl.com/DiverseDepth
- Abstract(参考訳): 本研究では,モノクロ画像を用いた深度推定手法を提案する。これにより,アフィン変換までの様々なシーンにおける高品質な深度を予測し,シーンの正確な形状を保存できる。
計量深度を予測する従来の方法は、特定のシーンでのみうまく機能する。
対照的に、相対深度(近いかそれ以上かの情報)の学習は、シーンの正確な幾何学的形状の回復に失敗する価格で、より良い一般化を享受することができる。
本研究では,このジレンマに対処するためのデータセットと手法を提案し,多様なシーンにうまく一般化したアフィン変換までの正確な深さを予測することを目的としている。
まず,広い範囲のシーンと前景コンテンツを有する大規模かつ多様なデータセットであるDiverse Scene Depthデータセット(DiverseDepth)を構築した。
従来の学習目標,すなわちメートル法深度や相対深度と比較して,多種多様なデータセットを用いてアフィン不変深度を学習し,シーンの一般化と高品質な幾何学的形状の両立を図ることを提案する。
さらに,複雑なデータセット上でモデルを効果的に訓練するために,マルチカリキュラム学習法を提案する。
実験により,本手法はゼロショットテスト設定と大差で8つのデータセットの従来の手法より優れており,学習したモデルの多様なシーンへの優れた一般化能力を示している。
推定深度の再構成された点雲は,高品質な3d形状を再現できることを示す。
コードとデータセットは: https://tinyurl.com/diversedepth
関連論文リスト
- Learning to Adapt CLIP for Few-Shot Monocular Depth Estimation [31.34615135846137]
単眼深度推定に視覚言語モデルを適用することを学習する,数発のショットベース手法を提案する。
具体的には、異なるシーンに異なる深度ビンを割り当て、推論中にモデルによって選択できる。
トレーニング用シーンあたりのイメージが1つしかないため、NYU V2とKITTIデータセットによる大規模な実験結果から、我々の手法が従来の最先端の手法を最大10.6%上回っていることが示された。
論文 参考訳(メタデータ) (2023-11-02T06:56:50Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - P3Depth: Monocular Depth Estimation with a Piecewise Planarity Prior [133.76192155312182]
本研究では,コプラナー画素からの情報を選択的に活用して予測深度を改善する手法を提案する。
本手法の広範な評価により, 教師付き単分子深度推定法において, 新たな手法の確立が期待できる。
論文 参考訳(メタデータ) (2022-04-05T10:03:52Z) - 360 Depth Estimation in the Wild -- The Depth360 Dataset and the SegFuse
Network [35.03201732370496]
全方位画像からの一視点深度推定は、自律運転やシーン再構築といった幅広い応用で人気を博している。
本研究ではまず,トレーニングデータ問題に対処するため,Depth360と呼ばれるさまざまな設定の大規模データセットを構築した。
次に、人間の眼を模倣してデータセットから効果的に学習する、エンドツーエンドのマルチタスク学習ネットワークであるSegFuseを提案する。
論文 参考訳(メタデータ) (2022-02-16T11:56:31Z) - Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文 参考訳(メタデータ) (2021-03-07T00:08:21Z) - Learning to Recover 3D Scene Shape from a Single Image [98.20106822614392]
まず,未知のスケールまで深さを予測し,単一の単眼画像からシフトする2段階フレームワークを提案する。
そして、3dポイントクラウドエンコーダを使って深度シフトと焦点距離を予測し、リアルな3dシーンの形状を復元します。
論文 参考訳(メタデータ) (2020-12-17T02:35:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。