論文の概要: Towards General Purpose Geometry-Preserving Single-View Depth Estimation
- arxiv url: http://arxiv.org/abs/2009.12419v2
- Date: Tue, 9 Feb 2021 20:30:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 22:49:21.892277
- Title: Towards General Purpose Geometry-Preserving Single-View Depth Estimation
- Title(参考訳): 汎用幾何保存型単視点深度推定に向けて
- Authors: Mikhail Romanov, Nikolay Patatkin, Anna Vorontsova, Sergey Nikolenko,
Anton Konushin, Dmitry Senyushkin
- Abstract要約: 単視点深度推定(SVDE)は、ARアプリケーション、3Dモデリング、ロボット工学におけるシーン理解において重要な役割を果たす。
近年の研究では、成功するソリューションはトレーニングデータの多様性とボリュームに強く依存していることが示されている。
我々の研究は、従来のデータセットとともに、このデータに基づいてトレーニングされたモデルが、正確なシーン形状を予測しながら精度を向上できることを示している。
- 参考スコア(独自算出の注目度): 1.9573380763700712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single-view depth estimation (SVDE) plays a crucial role in scene
understanding for AR applications, 3D modeling, and robotics, providing the
geometry of a scene based on a single image. Recent works have shown that a
successful solution strongly relies on the diversity and volume of training
data. This data can be sourced from stereo movies and photos. However, they do
not provide geometrically complete depth maps (as disparities contain unknown
shift value). Therefore, existing models trained on this data are not able to
recover correct 3D representations. Our work shows that a model trained on this
data along with conventional datasets can gain accuracy while predicting
correct scene geometry. Surprisingly, only a small portion of geometrically
correct depth maps are required to train a model that performs equally to a
model trained on the full geometrically correct dataset. After that, we train
computationally efficient models on a mixture of datasets using the proposed
method. Through quantitative comparison on completely unseen datasets and
qualitative comparison of 3D point clouds, we show that our model defines the
new state of the art in general-purpose SVDE.
- Abstract(参考訳): 単視点深度推定(SVDE)は、ARアプリケーション、3Dモデリング、ロボット工学におけるシーン理解において重要な役割を担い、単一の画像に基づいてシーンの幾何学を提供する。
近年の研究では、成功するソリューションはトレーニングデータの多様性とボリュームに強く依存していることが示されている。
このデータはステレオ映画や写真から得られる。
しかし、これらは幾何的に完全な深度写像を提供していない(不等式が未知のシフト値を含むため)。
したがって、このデータに基づいてトレーニングされた既存のモデルは、正しい3d表現を復元できない。
本研究は,このデータに基づいてトレーニングされたモデルと従来のデータセットを組み合わせることで,正確なシーン形状を予測できることを示す。
驚くべきことに、完全に幾何学的に正しいデータセットでトレーニングされたモデルに等しく作用するモデルを訓練するには、幾何学的に正しい深度マップのごく一部しか必要とされない。
その後,提案手法を用いて計算効率の高いモデルを混合データセット上で学習する。
完全に見えないデータセットと3次元点雲の定性的比較を定量的に比較することにより,本モデルが汎用SVDEで新たな技術状態を定義することを示す。
関連論文リスト
- Neural Localizer Fields for Continuous 3D Human Pose and Shape Estimation [32.30055363306321]
本研究では、異なる人間のポーズや形状に関連したタスクやデータセットをシームレスに統一するパラダイムを提案する。
私たちの定式化は、トレーニングとテスト時間の両方で、人間の体積の任意の点を問う能力に重点を置いています。
メッシュや2D/3Dスケルトン,密度の高いポーズなど,さまざまな注釈付きデータソースを,変換することなく自然に利用することが可能です。
論文 参考訳(メタデータ) (2024-07-10T10:44:18Z) - Robust Geometry-Preserving Depth Estimation Using Differentiable
Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。
包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。
我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文 参考訳(メタデータ) (2023-09-18T12:36:39Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Single-Stage 3D Geometry-Preserving Depth Estimation Model Training on
Dataset Mixtures with Uncalibrated Stereo Data [4.199844472131922]
GP$2$, 汎用および幾何保存型トレーニングスキームを単視点深度推定のために提案する。
GP$2$のトレーニングモデルでは,PCMに依存した手法よりも精度と速度が優れていることを示す。
また、SVDEモデルでは、幾何的完全データがトレーニングセットのマイナーな部分を含む場合でも、幾何学的に正しい深さを予測することができることを示す。
論文 参考訳(メタデータ) (2023-06-05T13:49:24Z) - Robust Category-Level 3D Pose Estimation from Synthetic Data [17.247607850702558]
CADモデルから生成されたオブジェクトポーズ推定のための新しい合成データセットであるSyntheticP3Dを紹介する。
逆レンダリングによるポーズ推定を行うニューラルネットワークモデルをトレーニングするための新しいアプローチ(CC3D)を提案する。
論文 参考訳(メタデータ) (2023-05-25T14:56:03Z) - Learning 3D Human Pose Estimation from Dozens of Datasets using a
Geometry-Aware Autoencoder to Bridge Between Skeleton Formats [80.12253291709673]
本稿では,アフィン結合型オートエンコーダ(ACAE)法を提案する。
このアプローチは、28人の人間のポーズデータセットを使って1つのモデルを監督する、極端なマルチデータセット体制にスケールします。
論文 参考訳(メタデータ) (2022-12-29T22:22:49Z) - Normal Transformer: Extracting Surface Geometry from LiDAR Points
Enhanced by Visual Semantics [6.516912796655748]
本稿では,3次元点雲と2次元カラー画像から正規分布を推定する手法を提案する。
我々は,視覚的セマンティクスと3次元幾何データのハイブリッド情報を活用することを学ぶトランスフォーマーニューラルネットワークを開発した。
論文 参考訳(メタデータ) (2022-11-19T03:55:09Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文 参考訳(メタデータ) (2021-03-07T00:08:21Z) - Generating synthetic photogrammetric data for training deep learning
based 3D point cloud segmentation models [0.0]
I/ITSEC 2019で著者らは、3Dフォトグラムのポイントクラウド/ミームをセグメント化し、オブジェクト情報を抽出する、完全に自動化されたワークフローを発表した。
最終的な目標は、現実的な仮想環境を作成し、シミュレーションに必要な情報を提供することである。
論文 参考訳(メタデータ) (2020-08-21T18:50:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。