論文の概要: Towards Better Generalization: Joint Depth-Pose Learning without PoseNet
- arxiv url: http://arxiv.org/abs/2004.01314v2
- Date: Fri, 3 Sep 2021 09:45:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 04:54:23.812279
- Title: Towards Better Generalization: Joint Depth-Pose Learning without PoseNet
- Title(参考訳): より良い一般化に向けて:ポスネットのない共同深層学習
- Authors: Wang Zhao, Shaohui Liu, Yezhi Shu, Yong-Jin Liu
- Abstract要約: 自己教師型共同深層学習におけるスケール不整合の本質的問題に対処する。
既存の手法の多くは、全ての入力サンプルで一貫した深さとポーズを学習できると仮定している。
本稿では,ネットワーク推定からスケールを明示的に切り離す新しいシステムを提案する。
- 参考スコア(独自算出の注目度): 36.414471128890284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we tackle the essential problem of scale inconsistency for
self-supervised joint depth-pose learning. Most existing methods assume that a
consistent scale of depth and pose can be learned across all input samples,
which makes the learning problem harder, resulting in degraded performance and
limited generalization in indoor environments and long-sequence visual odometry
application. To address this issue, we propose a novel system that explicitly
disentangles scale from the network estimation. Instead of relying on PoseNet
architecture, our method recovers relative pose by directly solving fundamental
matrix from dense optical flow correspondence and makes use of a two-view
triangulation module to recover an up-to-scale 3D structure. Then, we align the
scale of the depth prediction with the triangulated point cloud and use the
transformed depth map for depth error computation and dense reprojection check.
Our whole system can be jointly trained end-to-end. Extensive experiments show
that our system not only reaches state-of-the-art performance on KITTI depth
and flow estimation, but also significantly improves the generalization ability
of existing self-supervised depth-pose learning methods under a variety of
challenging scenarios, and achieves state-of-the-art results among
self-supervised learning-based methods on KITTI Odometry and NYUv2 dataset.
Furthermore, we present some interesting findings on the limitation of
PoseNet-based relative pose estimation methods in terms of generalization
ability. Code is available at https://github.com/B1ueber2y/TrianFlow.
- Abstract(参考訳): 本研究では,自己教師型共同深層学習におけるスケール不整合の本質的問題に取り組む。
既存の手法の多くは、全ての入力サンプルで一貫した深さとポーズを学習できると仮定しており、学習問題を難しくし、結果として室内環境における性能が低下し、一般化が制限される。
この問題に対処するために,ネットワーク推定からスケールを明示的に切り離す新しいシステムを提案する。
提案手法は,ポスネットアーキテクチャに頼らず,高密度光流対応から基本行列を直接解いて相対的なポーズを回復し,2次元三角測量モジュールを用いて大規模3次元構造を復元する。
次に, 深度予測のスケールを三角点雲と整列し, 深度誤差計算と高密度再投影検査に変換深度マップを用いる。
システム全体をエンドツーエンドで共同でトレーニングすることができます。
大規模な実験により,本システムは,KITTI深度および流速推定における最先端性能に到達するだけでなく,既存の自己教師あり深度学習手法の一般化能力を大幅に向上し,KITTIオドメトリーとNYUv2データセットを用いた自己教師あり学習手法の最先端結果を得ることができた。
さらに,ポズネットに基づく相対ポーズ推定手法の一般化能力の限界について,いくつかの興味深い知見を示す。
コードはhttps://github.com/B1ueber2y/TrianFlowで入手できる。
関連論文リスト
- Scale Propagation Network for Generalizable Depth Completion [16.733495588009184]
入力から出力までのスケールを伝搬する新しいスケール伝搬正規化法(SP-Norm)を提案する。
また,SP-NormとConvNeXt V2のバックボーンをベースとした新しいネットワークアーキテクチャを開発した。
我々のモデルは、最先端の手法と比較して、高速かつ低メモリで常に最高の精度を達成している。
論文 参考訳(メタデータ) (2024-10-24T03:53:06Z) - DFC: Deep Feature Consistency for Robust Point Cloud Registration [0.4724825031148411]
複雑なアライメントシーンのための学習に基づくアライメントネットワークを提案する。
我々は,3DMatchデータセットとKITTIオドメトリデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2021-11-15T08:27:21Z) - Geometry Uncertainty Projection Network for Monocular 3D Object
Detection [138.24798140338095]
本稿では,予測および学習段階の誤り増幅問題に対処するために,幾何不確実性予測ネットワーク(GUP Net)を提案する。
具体的には, GUPモジュールを提案し, 推定深さの幾何誘導不確かさを求める。
トレーニング段階では,エラー増幅による不安定性を低減するための階層型タスク学習戦略を提案する。
論文 参考訳(メタデータ) (2021-07-29T06:59:07Z) - Deep Two-View Structure-from-Motion Revisited [83.93809929963969]
2次元構造移動(SfM)は3次元再構成と視覚SLAMの基礎となる。
古典パイプラインの適切性を活用することで,深部2視点sfmの問題を再検討することを提案する。
本手法は,1)2つのフレーム間の密対応を予測する光フロー推定ネットワーク,2)2次元光フロー対応から相対カメラポーズを計算する正規化ポーズ推定モジュール,3)エピポーラ幾何を利用して探索空間を縮小し,密対応を洗練し,相対深度マップを推定するスケール不変深さ推定ネットワークからなる。
論文 参考訳(メタデータ) (2021-04-01T15:31:20Z) - PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View
Depth Estimation with Neural Positional Encoding and Distilled Matting Loss [49.66736599668501]
PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。
提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
論文 参考訳(メタデータ) (2021-03-12T15:54:46Z) - Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文 参考訳(メタデータ) (2021-03-07T00:08:21Z) - DF-VO: What Should Be Learnt for Visual Odometry? [33.379888882093965]
マルチビュージオメトリと深層学習を深さと光フローで統合し、シンプルで堅牢な視覚オドメトリーシステムを設計します。
包括的アブレーション研究により,提案手法の有効性が示され,本システムの性能に関する広範な評価結果が得られた。
論文 参考訳(メタデータ) (2021-03-01T11:50:39Z) - CodeVIO: Visual-Inertial Odometry with Learned Optimizable Dense Depth [83.77839773394106]
本稿では,軽量で密結合の深い深度ネットワークと視覚慣性オドメトリーシステムを提案する。
我々は、初期深度予測の精度を高めるために、以前にVIOから切り離されたスパース特徴を持つネットワークを提供する。
本稿では,ネットワークとコードヤコビアンでのみGPUアクセラレーションを活用しながら,シングルスレッド実行でリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2020-12-18T09:42:54Z) - Learning a Geometric Representation for Data-Efficient Depth Estimation
via Gradient Field and Contrastive Loss [29.798579906253696]
本研究では、コンブネットがラベルのない画像で幾何学的情報を抽出するのを支援するために、運動量差の少ない勾配に基づく自己教師付き学習アルゴリズムを提案する。
提案手法は,従来の自己教師付き学習アルゴリズムよりも優れ,ラベル付きデータの効率を3倍に向上させる。
論文 参考訳(メタデータ) (2020-11-06T06:47:19Z) - Occlusion-Aware Depth Estimation with Adaptive Normal Constraints [85.44842683936471]
カラービデオから多フレーム深度を推定する新しい学習手法を提案する。
本手法は深度推定精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2020-04-02T07:10:45Z) - DELTAS: Depth Estimation by Learning Triangulation And densification of
Sparse points [14.254472131009653]
多視点ステレオ (MVS) は, 能動深度センシングの精度と単眼深度推定の実用性の間の黄金平均値である。
3次元畳み込みニューラルネットワーク(CNN)を用いたコストボリュームベースのアプローチにより、MVSシステムの精度が大幅に向上した。
まず、(a)興味点の記述子を検出して評価し、次に(b)興味点の小さな集合をマッチングして三角測量し、最後に(c)CNNを用いてこのスパースな3D点の集合を密度化することで、効率的な深さ推定手法を提案する。
論文 参考訳(メタデータ) (2020-03-19T17:56:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。