論文の概要: Single-Stage 3D Geometry-Preserving Depth Estimation Model Training on
Dataset Mixtures with Uncalibrated Stereo Data
- arxiv url: http://arxiv.org/abs/2306.02878v1
- Date: Mon, 5 Jun 2023 13:49:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 14:54:33.872133
- Title: Single-Stage 3D Geometry-Preserving Depth Estimation Model Training on
Dataset Mixtures with Uncalibrated Stereo Data
- Title(参考訳): ステレオデータとデータセット混合による単段3次元形状保存深度推定モデル学習
- Authors: Nikolay Patakin, Mikhail Romanov, Anna Vorontsova, Mikhail Artemyev,
Anton Konushin
- Abstract要約: GP$2$, 汎用および幾何保存型トレーニングスキームを単視点深度推定のために提案する。
GP$2$のトレーニングモデルでは,PCMに依存した手法よりも精度と速度が優れていることを示す。
また、SVDEモデルでは、幾何的完全データがトレーニングセットのマイナーな部分を含む場合でも、幾何学的に正しい深さを予測することができることを示す。
- 参考スコア(独自算出の注目度): 4.199844472131922
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Nowadays, robotics, AR, and 3D modeling applications attract considerable
attention to single-view depth estimation (SVDE) as it allows estimating scene
geometry from a single RGB image. Recent works have demonstrated that the
accuracy of an SVDE method hugely depends on the diversity and volume of the
training data. However, RGB-D datasets obtained via depth capturing or 3D
reconstruction are typically small, synthetic datasets are not photorealistic
enough, and all these datasets lack diversity. The large-scale and diverse data
can be sourced from stereo images or stereo videos from the web. Typically
being uncalibrated, stereo data provides disparities up to unknown shift
(geometrically incomplete data), so stereo-trained SVDE methods cannot recover
3D geometry. It was recently shown that the distorted point clouds obtained
with a stereo-trained SVDE method can be corrected with additional point cloud
modules (PCM) separately trained on the geometrically complete data. On the
contrary, we propose GP$^{2}$, General-Purpose and Geometry-Preserving training
scheme, and show that conventional SVDE models can learn correct shifts
themselves without any post-processing, benefiting from using stereo data even
in the geometry-preserving setting. Through experiments on different dataset
mixtures, we prove that GP$^{2}$-trained models outperform methods relying on
PCM in both accuracy and speed, and report the state-of-the-art results in the
general-purpose geometry-preserving SVDE. Moreover, we show that SVDE models
can learn to predict geometrically correct depth even when geometrically
complete data comprises the minor part of the training set.
- Abstract(参考訳): 現在、ロボット工学、AR、および3Dモデリングアプリケーションは、単一のRGB画像からシーン形状を推定できるため、単視点深度推定(SVDE)に大きな注目を集めている。
近年の研究では,SVDE法の精度がトレーニングデータの多様性と容積に大きく依存していることが示されている。
しかし、深度キャプチャや3D再構成によって得られたRGB-Dデータセットは通常小さく、合成データセットはフォトリアリスティックではない。
大規模で多様なデータは、web上のステレオ画像やステレオビデオから得られる。
典型的には、ステレオデータは未知のシフト(幾何学的に不完全なデータ)まで格差を与えるため、ステレオトレーニングされたSVDE法は3次元形状を復元できない。
近年,立体訓練されたSVDE法により得られた歪み点雲を,幾何学的に完全なデータに基づいて個別に学習した追加点雲モジュール(PCM)で補正できることが示されている。
そこで,本研究ではgp$^{2}$,汎用および幾何学保存トレーニングスキームを提案し,従来のsvdeモデルでは,幾何学保存環境においてもステレオデータを利用することで,後処理なしで正しいシフトを学習できることを示す。
実験により, GP$^{2}$-trained model はPCMに依存した手法よりも精度と速度で優れており, 汎用的幾何保存 SVDE に最先端の結果を報告する。
さらに,SVDEモデルでは,幾何的完全データがトレーニングセットのごく一部を構成する場合でも,幾何学的に正確な深度を予測できることを示す。
関連論文リスト
- SelfSplat: Pose-Free and 3D Prior-Free Generalizable 3D Gaussian Splatting [4.121797302827049]
ポーズフリーで3次元の事前自由な一般化可能な3次元再構成を実現するための新しい3次元ガウススプラッティングモデルであるSelfSplatを提案する。
本モデルでは,これらの課題に対して,自己教師付き深度とポーズ推定手法を効果的に統合することによって対処する。
提案手法の性能を評価するため,RealEstate10K,ACID,DL3DVなどの大規模実世界のデータセットを用いて評価を行った。
論文 参考訳(メタデータ) (2024-11-26T08:01:50Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Normal Transformer: Extracting Surface Geometry from LiDAR Points
Enhanced by Visual Semantics [6.516912796655748]
本稿では,3次元点雲と2次元カラー画像から正規分布を推定する手法を提案する。
我々は,視覚的セマンティクスと3次元幾何データのハイブリッド情報を活用することを学ぶトランスフォーマーニューラルネットワークを開発した。
論文 参考訳(メタデータ) (2022-11-19T03:55:09Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z) - Neural Radiance Fields Approach to Deep Multi-View Photometric Stereo [103.08512487830669]
多視点測光ステレオ問題(MVPS)に対する現代的な解法を提案する。
我々は、光度ステレオ(PS)画像形成モデルを用いて表面配向を取得し、それを多視点のニューラルラディアンス場表現とブレンドして物体の表面形状を復元する。
本手法は,多視点画像のニューラルレンダリングを行い,深部光度ステレオネットワークによって推定される表面の正規性を活用している。
論文 参考訳(メタデータ) (2021-10-11T20:20:03Z) - Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文 参考訳(メタデータ) (2021-03-07T00:08:21Z) - Towards General Purpose Geometry-Preserving Single-View Depth Estimation [1.9573380763700712]
単視点深度推定(SVDE)は、ARアプリケーション、3Dモデリング、ロボット工学におけるシーン理解において重要な役割を果たす。
近年の研究では、成功するソリューションはトレーニングデータの多様性とボリュームに強く依存していることが示されている。
我々の研究は、従来のデータセットとともに、このデータに基づいてトレーニングされたモデルが、正確なシーン形状を予測しながら精度を向上できることを示している。
論文 参考訳(メタデータ) (2020-09-25T20:06:13Z) - DiverseDepth: Affine-invariant Depth Prediction Using Diverse Data [110.29043712400912]
本稿では,アフィン変換に至るまでの多様なシーンにおける高品質な深度を予測できるモノクロ画像を用いた深度推定手法を提案する。
実験の結果,提案手法は,ゼロショットテスト設定と大差で8つのデータセットの先行手法より優れていた。
論文 参考訳(メタデータ) (2020-02-03T05:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。