論文の概要: Self-Supervised Learning of Depth and Ego-Motion from Video by
Alternative Training and Geometric Constraints from 3D to 2D
- arxiv url: http://arxiv.org/abs/2108.01980v1
- Date: Wed, 4 Aug 2021 11:40:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 18:22:19.695481
- Title: Self-Supervised Learning of Depth and Ego-Motion from Video by
Alternative Training and Geometric Constraints from 3D to 2D
- Title(参考訳): 3次元から2次元へのオルタナティブトレーニングと幾何学的制約によるビデオからの深度とエゴ運動の自己教師付き学習
- Authors: Jiaojiao Fang, Guizhong Liu
- Abstract要約: ラベルなし単眼ビデオからの深度とエゴモーションの自己教師付き学習は有望な結果を得た。
本稿では,補助的なタスクを伴わずに深層学習性能を向上させることを目的とする。
我々は、トレーニング中により小さな深さ値に重点を置くために、ログスケールの3次元構造整合性損失を設計する。
- 参考スコア(独自算出の注目度): 5.481942307939029
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Self-supervised learning of depth and ego-motion from unlabeled monocular
video has acquired promising results and drawn extensive attention. Most
existing methods jointly train the depth and pose networks by photometric
consistency of adjacent frames based on the principle of structure-from-motion
(SFM). However, the coupling relationship of the depth and pose networks
seriously influences the learning performance, and the re-projection relations
is sensitive to scale ambiguity, especially for pose learning. In this paper,
we aim to improve the depth-pose learning performance without the auxiliary
tasks and address the above issues by alternative training each task and
incorporating the epipolar geometric constraints into the Iterative Closest
Point (ICP) based point clouds match process. Distinct from jointly training
the depth and pose networks, our key idea is to better utilize the mutual
dependency of these two tasks by alternatively training each network with
respective losses while fixing the other. We also design a log-scale 3D
structural consistency loss to put more emphasis on the smaller depth values
during training. To makes the optimization easier, we further incorporate the
epipolar geometry into the ICP based learning process for pose learning.
Extensive experiments on various benchmarks datasets indicate the superiority
of our algorithm over the state-of-the-art self-supervised methods.
- Abstract(参考訳): ラベルなし単眼ビデオからの深度とエゴモーションの自己教師付き学習は、有望な結果を得て、広く注目を集めている。
既存のほとんどの手法は、構造移動(SFM)の原理に基づいて、隣接するフレームの光度整合性によって深度とポーズのネットワークを共同で訓練する。
しかし,深度とポーズネットワークの結合関係は学習性能に大きく影響を与え,特にポーズ学習において,再投影関係はあいまいさに敏感である。
本稿では,各タスクを代替訓練し,エピポーラ幾何制約を反復的最接近点(icp)ベースの点雲マッチングプロセスに組み込むことにより,補助課題を伴わない深層学習性能の向上を目標とする。
深層ネットワークとポーズネットワークを共同で訓練するのとは違って,両タスクの相互依存を,相互に活用し,各損失を交互にトレーニングし,他方を固定する,という考え方である。
また,ログスケールの3次元構造的一貫性の損失も設計し,トレーニング中の奥行き値の低減に重点を置いています。
最適化を容易にするため、ポーズ学習のためのICPベースの学習プロセスに、エピポーラ幾何学をさらに取り入れる。
様々なベンチマークデータセットに関する広範囲な実験は、最先端の自己教師付き手法よりもアルゴリズムが優れていることを示している。
関連論文リスト
- Improving Video Violence Recognition with Human Interaction Learning on
3D Skeleton Point Clouds [88.87985219999764]
我々は骨格点の新たな視点からビデオ暴力認識法を開発した。
まず、ビデオから抽出した人間の配列から3Dスケルトン点雲を定式化する。
そして、これらの3Dスケルトン点雲上で相互作用学習を行う。
論文 参考訳(メタデータ) (2023-08-26T12:55:18Z) - Towards Deeply Unified Depth-aware Panoptic Segmentation with
Bi-directional Guidance Learning [63.63516124646916]
深度認識型パノプティックセグメンテーションのためのフレームワークを提案する。
本稿では,クロスタスク機能学習を容易にする双方向指導学習手法を提案する。
本手法は,Cityscapes-DVPS と SemKITTI-DVPS の両データセットを用いた深度認識型パノプティックセグメンテーションのための新しい手法である。
論文 参考訳(メタデータ) (2023-07-27T11:28:33Z) - Collaborative Learning for Hand and Object Reconstruction with
Attention-guided Graph Convolution [49.10497573378427]
インタラクション中の手や物体のポーズと形状を推定すると、拡張現実や仮想現実を含む多くの応用が見つかる。
我々のアルゴリズムはオブジェクトモデルへの最適化であり、手動オブジェクトの相互作用を管理する物理規則を学習する。
広範に使用されている4つのベンチマークを用いて実験したところ、我々のフレームワークは3次元ポーズ推定における最先端の精度を超えて達成でき、また、密集した3次元手や物体の形状を復元できることがわかった。
論文 参考訳(メタデータ) (2022-04-27T17:00:54Z) - Unsupervised Joint Learning of Depth, Optical Flow, Ego-motion from
Video [9.94001125780824]
深度、カメラの動き、画像からの光学的流れなどの幾何学的要素を推定することは、ロボットの視覚的知覚の重要な部分である。
我々は3つの幾何学的要素を推定するために,共同自己教師手法を用いる。
論文 参考訳(メタデータ) (2021-05-30T12:39:48Z) - Deep Two-View Structure-from-Motion Revisited [83.93809929963969]
2次元構造移動(SfM)は3次元再構成と視覚SLAMの基礎となる。
古典パイプラインの適切性を活用することで,深部2視点sfmの問題を再検討することを提案する。
本手法は,1)2つのフレーム間の密対応を予測する光フロー推定ネットワーク,2)2次元光フロー対応から相対カメラポーズを計算する正規化ポーズ推定モジュール,3)エピポーラ幾何を利用して探索空間を縮小し,密対応を洗練し,相対深度マップを推定するスケール不変深さ推定ネットワークからなる。
論文 参考訳(メタデータ) (2021-04-01T15:31:20Z) - SOSD-Net: Joint Semantic Object Segmentation and Depth Estimation from
Monocular images [94.36401543589523]
これら2つのタスクの幾何学的関係を利用するための意味的対象性の概念を紹介します。
次に, 対象性仮定に基づくセマンティックオブジェクト・深さ推定ネットワーク(SOSD-Net)を提案する。
私たちの知識を最大限に活用するために、SOSD-Netは同時単眼深度推定とセマンティックセグメンテーションのためのジオメトリ制約を利用する最初のネットワークです。
論文 参考訳(メタデータ) (2021-01-19T02:41:03Z) - Monocular 3D Object Detection with Sequential Feature Association and
Depth Hint Augmentation [12.55603878441083]
FADNetは、モノクル3Dオブジェクト検出の課題に対処するために提示される。
専用のディープヒントモジュールは、ディープヒントと呼ばれる行ワイズ機能を生成するように設計されている。
この研究の貢献は、KITTIベンチマークの実験およびアブレーション研究によって検証される。
論文 参考訳(メタデータ) (2020-11-30T07:19:14Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Towards Better Generalization: Joint Depth-Pose Learning without PoseNet [36.414471128890284]
自己教師型共同深層学習におけるスケール不整合の本質的問題に対処する。
既存の手法の多くは、全ての入力サンプルで一貫した深さとポーズを学習できると仮定している。
本稿では,ネットワーク推定からスケールを明示的に切り離す新しいシステムを提案する。
論文 参考訳(メタデータ) (2020-04-03T00:28:09Z) - Semantically-Guided Representation Learning for Self-Supervised
Monocular Depth [40.49380547487908]
本稿では,自己教師付き表現学習を指導するために,事前訓練型セマンティックセマンティック・セマンティクス・ネットワークを利用した新しいアーキテクチャを提案する。
本手法は,全画素,細粒度細部,意味カテゴリーごとの自己教師型単眼深度予測のための技術の現状を改善した。
論文 参考訳(メタデータ) (2020-02-27T18:40:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。