論文の概要: Fixing the Scale and Shift in Monocular Depth For Camera Pose Estimation
- arxiv url: http://arxiv.org/abs/2501.07742v1
- Date: Mon, 13 Jan 2025 23:13:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:29:23.722463
- Title: Fixing the Scale and Shift in Monocular Depth For Camera Pose Estimation
- Title(参考訳): カメラポーズ推定のための単眼深度におけるスケールとシフトの修正
- Authors: Yaqing Ding, Václav Vávra, Viktor Kocur, Jian Yang, Torsten Sattler, Zuzana Kukelova,
- Abstract要約: 本稿では,2つのカメラ間の相対的なポーズを,関連する単眼深度に対応する点対応から推定する新しい枠組みを提案する。
2台の校正カメラ, 2台の未校正カメラ, 2台の未校正カメラ, 2台の未校正カメラ, 3台の未校正カメラ, 3台の非校正カメラ, 3台の非校正カメラの焦点長を比較検討した。
従来の研究と比較すると、我々の解法は2つの大規模な実世界のデータセットに対して最先端の結果が得られる。
- 参考スコア(独自算出の注目度): 47.68705641608316
- License:
- Abstract: Recent advances in monocular depth prediction have led to significantly improved depth prediction accuracy. In turn, this enables various applications to use such depth predictions. In this paper, we propose a novel framework for estimating the relative pose between two cameras from point correspondences with associated monocular depths. Since depth predictions are typically defined up to an unknown scale and shift parameter, our solvers jointly estimate both scale and shift parameters together with the camera pose. We derive efficient solvers for three cases: (1) two calibrated cameras, (2) two uncalibrated cameras with an unknown but shared focal length, and (3) two uncalibrated cameras with unknown and different focal lengths. Experiments on synthetic and real data, including experiments with depth maps estimated by 11 different depth predictors, show the practical viability of our solvers. Compared to prior work, our solvers achieve state-of-the-art results on two large-scale, real-world datasets. The source code is available at https://github.com/yaqding/pose_monodepth
- Abstract(参考訳): 近年の単分子深度予測の進歩により、深度予測精度が大幅に向上した。
これにより、様々なアプリケーションがこのような深度予測を使用できる。
本稿では,2つのカメラ間の相対的なポーズを,関連する単眼深度に対応する点対応から推定する新しい枠組みを提案する。
通常、深さ予測は未知のスケールとシフトパラメータまで定義されるので、カメラのポーズとともに、スケールとシフトパラメータの両方を共同で推定する。
2台の校正カメラ, 2台の未校正カメラ, 2台の未校正カメラ, 2台の未校正カメラ, 3台の未校正カメラ, 3台の非校正カメラ, 3台の非校正カメラの焦点長を比較検討した。
11の異なる深度予測器によって推定される深度マップを用いた実験を含む、合成データと実データに関する実験は、我々の解法の実用可能性を示している。
従来の研究と比較すると、我々の解法は2つの大規模な実世界のデータセットに対して最先端の結果が得られる。
ソースコードはhttps://github.com/yaqding/pose_monodepthで入手できる。
関連論文リスト
- Depth Pro: Sharp Monocular Metric Depth in Less Than a Second [45.6690958201871]
ゼロショット距離単眼深度推定のための基礎モデルを提案する。
我々のモデルであるDepth Proは、非並列のシャープネスと高周波の詳細で高分解能深度マップを合成する。
標準GPUで0.3秒で2.25メガピクセルの深度マップを生成する。
論文 参考訳(メタデータ) (2024-10-02T22:42:20Z) - FS-Depth: Focal-and-Scale Depth Estimation from a Single Image in Unseen
Indoor Scene [57.26600120397529]
実際の(見えない)屋内シーンの単一の画像から絶対深度マップを予測するのには、長年不適切な問題だった。
本研究では,未確認屋内シーンの単一画像から絶対深度マップを正確に学習するための焦点・スケール深度推定モデルを開発した。
論文 参考訳(メタデータ) (2023-07-27T04:49:36Z) - DepthP+P: Metric Accurate Monocular Depth Estimation using Planar and
Parallax [0.0]
現在の自己監督型単眼深度推定法は主に、カメラの動きを表す剛体の動きを推定することに基づいている。
本稿では,従来の平面パララックスパラダイムに従えば,メートル法で出力を推定する手法であるDepthP+Pを提案する。
論文 参考訳(メタデータ) (2023-01-05T14:53:21Z) - Multi-Camera Collaborative Depth Prediction via Consistent Structure
Estimation [75.99435808648784]
本稿では,新しいマルチカメラ協調深度予測法を提案する。
カメラ間の構造的整合性を維持しながら、大きな重なり合う領域を必要としない。
DDADおよびNuScenesデータセットの実験結果から,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-05T03:44:34Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - On the role of depth predictions for 3D human pose estimation [0.04199844472131921]
推定深度値とともに2dジョイント位置を入力とし、3d位置をカメラ座標で予測するシステムを構築します。
結果は低次元の入力を受け入れ、リアルタイムシステムに統合されるニューラルネットワークで生成されます。
本システムは市販の2dポーズ検出器と深度マップ予測器と組み合わせて野生での3dポーズ推定を行うことができる。
論文 参考訳(メタデータ) (2021-03-03T16:51:38Z) - Robust Consistent Video Depth Estimation [65.53308117778361]
本稿では,単眼映像からカメラのカメラポーズと密集した深度マップを推定するアルゴリズムを提案する。
本手法は,(1)低周波大規模アライメントのためのフレキシブルな変形-スプラインと(2)細部奥行き詳細の高周波アライメントのための幾何認識深度フィルタリングとを組み合わせた手法である。
従来の手法とは対照的に, カメラのポーズを入力として必要とせず, かなりの音量, 揺動, 動きのぼやき, 転がりシャッター変形を含む携帯のハンドヘルドキャプチャに頑健な再構成を実現する。
論文 参考訳(メタデータ) (2020-12-10T18:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。