論文の概要: SA4Depth: Consistent Pose-Depth Scale Alignment for Self-Supervised Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2605.28477v1
- Date: Wed, 27 May 2026 13:38:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.080544
- Title: SA4Depth: Consistent Pose-Depth Scale Alignment for Self-Supervised Monocular Depth Estimation
- Title(参考訳): SA4Depth: 自己監督型単眼深度推定のための一貫したPose-Depthスケールアライメント
- Authors: Changxuan Li, Nadine Berner, Nassir Navab, Federico Tombari, Stefano Gasperini,
- Abstract要約: 単分子配列からの自己教師付き深さ推定は、深さとポーズネットワークの合同学習に依存する。
ポーズと深度ネットによって推定されるシーンスケールのアライメントを改善するためのアプローチであるSA4Depthを紹介する。
提案手法は,学習可能な視覚的特徴を連続的フレーム間で再現するために,トレーニング中に推定した深度を用いている。
- 参考スコア(独自算出の注目度): 76.82232244682113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised depth estimation from monocular sequences relies on the joint learning of a depth and a pose network. Despite abundant research done to improve the depth network, efforts on the pose remain limited. In this context, even when depth is estimated up to scale, we highlight the importance of the alignment between the scene scales estimated by the pose and depth nets. Then, we introduce SA4Depth, an approach to improve this alignment and boost the depth predictions while keeping the inference time unchanged. Our proposed method uses the depth estimated during training to reproject learnable visual features across consecutive frames and refine the pose estimates by reducing feature alignment residuals. With our method, the estimated scene scales by the separate depth and pose networks are aligned, and the prediction scale consistency is improved across different sequences. Our differentiable refinement integrates seamlessly into existing self-supervised pipelines and substantially improves their depth estimates. We demonstrate this with extensive experiments both outdoors and indoors on KITTI, Cityscapes, and NYUv2. Additionally, results on KITTI Odometry confirm the effectiveness of our pose refinement. Our code is available at https://github.com/Runningchauncey/SA4Depth .
- Abstract(参考訳): 単分子配列からの自己教師付き深さ推定は、深さとポーズネットワークの合同学習に依存する。
深度ネットワークを改善するために多くの研究がなされたが、ポーズへの取り組みは限られている。
この文脈では、深さがスケールまで推定されたとしても、ポーズと深さネットによって推定されるシーンスケールのアライメントの重要性を強調します。
次に,このアライメントを改善し,推定時間を一定に保ちながら深度予測を向上するアプローチであるSA4Depthを紹介する。
提案手法は,学習可能な視覚的特徴を連続的フレーム間で再現し,特徴的アライメント残差を低減してポーズ推定を洗練するために,訓練中の深さ推定値を用いている。
提案手法では,異なる深度とポーズネットワークで推定されたシーンスケールを整列し,予測スケールの整合性を改善した。
我々の差別化可能な改善は、既存の自己管理パイプラインにシームレスに統合され、その深さ推定を大幅に改善します。
我々は、KITTI、Cityscapes、NYUv2で、屋外および屋内の両方で広範な実験を行い、これを実証した。
さらに,KITTIオドメトリーの結果から,ポーズ改善の有効性が確認された。
私たちのコードはhttps://github.com/Runningchauncey/SA4Depthで利用可能です。
関連論文リスト
- Metric-Solver: Sliding Anchored Metric Depth Estimation from a Single Image [51.689871870692194]
Metric-rはスライディングアンカーを用いた新しい距離深さ推定法である。
我々の設計は多様な環境にまたがって統一的かつ適応的な深度表現を可能にする。
論文 参考訳(メタデータ) (2025-04-16T14:12:25Z) - ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation [62.600382533322325]
本研究では,新しい単分子深度推定法であるScaleDepthを提案する。
提案手法は,距離深度をシーンスケールと相対深度に分解し,セマンティック・アウェア・スケール予測モジュールを用いて予測する。
本手法は,室内と屋外の両方のシーンを統一した枠組みで距離推定する。
論文 参考訳(メタデータ) (2024-07-11T05:11:56Z) - Self-Supervised Learning based Depth Estimation from Monocular Images [0.0]
単色深度推定の目標は、入力として2次元単色RGB画像が与えられた深度マップを予測することである。
我々は、トレーニング中に固有のカメラパラメータを実行し、我々のモデルをさらに一般化するために天気増悪を適用することを計画している。
論文 参考訳(メタデータ) (2023-04-14T07:14:08Z) - DualRefine: Self-Supervised Depth and Pose Estimation Through Iterative Epipolar Sampling and Refinement Toward Equilibrium [11.78276690882616]
自己教師付き多フレーム深度推定は,隣接フレーム間の画素対応のマッチングコストの計算により高い精度を実現する。
本稿では,フィードバックループを通した深度とポーズを密に結合するDualモデルを提案する。
我々の新しい更新パイプラインは、奥行き推定と特徴マップの隠れ状態を反復的に洗練するために、深い平衡モデルフレームワークを使用します。
論文 参考訳(メタデータ) (2023-04-07T09:46:29Z) - SelfTune: Metrically Scaled Monocular Depth Estimation through
Self-Supervised Learning [53.78813049373321]
本稿では,事前学習した教師付き単分子深度ネットワークに対する自己教師付き学習手法を提案する。
本手法は移動ロボットナビゲーションなどの様々な応用に有用であり,多様な環境に適用可能である。
論文 参考訳(メタデータ) (2022-03-10T12:28:42Z) - Towards 3D Scene Reconstruction from Locally Scale-Aligned Monocular
Video Depth [90.33296913575818]
映像深度推定や映像からの3次元シーン再構成のようなビデオベースのシナリオでは、フレームごとの予測における未知のスケールとシフトが深度の不整合を引き起こす可能性がある。
局所重み付き線形回帰法を提案する。
提案手法は,複数のゼロショットベンチマークにおいて,既存の最先端手法の性能を50%向上させることができる。
論文 参考訳(メタデータ) (2022-02-03T08:52:54Z) - Adaptive confidence thresholding for monocular depth estimation [83.06265443599521]
本稿では,自己教師付ステレオマッチング法から生成されたステレオ画像の擬似地上真実深度マップを利用する新しい手法を提案する。
擬似地底深度マップの信頼度マップを推定し、不正確な擬似地底深度マップによる性能劣化を緩和する。
実験結果から, 最先端の単分子深度推定法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-09-27T13:26:16Z) - Monocular Depth Estimation Based On Deep Learning: An Overview [16.2543991384566]
単一の画像から深度情報(眼深度推定)を推定することは不適切な問題である。
ディープラーニングは最近広く研究され、精度で有望なパフォーマンスを達成した。
深度推定の精度を向上させるために,様々な種類のネットワークフレームワーク,損失関数,トレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-03-14T12:35:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。