論文の概要: 3D Hierarchical Refinement and Augmentation for Unsupervised Learning of
Depth and Pose from Monocular Video
- arxiv url: http://arxiv.org/abs/2112.03045v1
- Date: Mon, 6 Dec 2021 13:46:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 17:12:25.130966
- Title: 3D Hierarchical Refinement and Augmentation for Unsupervised Learning of
Depth and Pose from Monocular Video
- Title(参考訳): 単眼映像からの深度・詩の教師なし学習のための3次元階層化と拡張
- Authors: Guangming Wang, Jiquan Zhong, Shijie Zhao, Wenhua Wu, Zhe Liu, Hesheng
Wang
- Abstract要約: 明示的な3次元幾何を用いた3次元階層化と拡張による新しい教師なしトレーニングフレームワークが提案されている。
このフレームワークでは、深さとポーズの推定を階層的に相互に結合し、推定されたポーズ層を層単位で洗練する。
我々の視覚計測は、最近の教師なし単眼学習法よりも優れており、幾何学的手法と競合する性能を実現している。
- 参考スコア(独自算出の注目度): 16.613015664195224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth and ego-motion estimations are essential for the localization and
navigation of autonomous robots and autonomous driving. Recent studies make it
possible to learn the per-pixel depth and ego-motion from the unlabeled
monocular video. A novel unsupervised training framework is proposed with 3D
hierarchical refinement and augmentation using explicit 3D geometry. In this
framework, the depth and pose estimations are hierarchically and mutually
coupled to refine the estimated pose layer by layer. The intermediate view
image is proposed and synthesized by warping the pixels in an image with the
estimated depth and coarse pose. Then, the residual pose transformation can be
estimated from the new view image and the image of the adjacent frame to refine
the coarse pose. The iterative refinement is implemented in a differentiable
manner in this paper, making the whole framework optimized uniformly.
Meanwhile, a new image augmentation method is proposed for the pose estimation
by synthesizing a new view image, which creatively augments the pose in 3D
space but gets a new augmented 2D image. The experiments on KITTI demonstrate
that our depth estimation achieves state-of-the-art performance and even
surpasses recent approaches that utilize other auxiliary tasks. Our visual
odometry outperforms all recent unsupervised monocular learning-based methods
and achieves competitive performance to the geometry-based method, ORB-SLAM2
with back-end optimization.
- Abstract(参考訳): 深度とエゴ運動の推定は、自律ロボットと自律運転のローカライズとナビゲーションに不可欠である。
最近の研究では、ラベルなしモノクロビデオからピクセルごとの深度とエゴモーションを学習することが可能である。
明示的な3次元幾何学を用いた3次元階層化と拡張による教師なしトレーニングフレームワークを提案する。
このフレームワークでは、深度とポーズの推定は階層的に相互に結合され、推定されたポーズ層を層ごとに洗練する。
画像中の画素を推定深度と粗いポーズでワープすることにより、中間ビュー画像を提案し合成する。
そして、新たなビュー画像と隣接フレームの画像とから残留ポーズ変換を推定して粗ポーズを洗練することができる。
本論文では,反復的改良を異なる方法で実施し,フレームワーク全体を一様に最適化する。
また、3次元空間におけるポーズを創造的に増強するが、新しい2次元画像を得る新しいビューイメージを合成することにより、ポーズ推定のための新しい画像拡張手法を提案する。
KITTIの実験は、我々の深さ推定が最先端の性能を達成し、他の補助的タスクを利用する最近のアプローチを超越していることを示している。
私たちの視覚オドメトリは,教師なし単眼学習に基づく手法を全て上回っており,バックエンド最適化による幾何ベース手法であるorb-slam2との競合性能を達成している。
関連論文リスト
- GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - Invisible Stitch: Generating Smooth 3D Scenes with Depth Inpainting [75.7154104065613]
本稿では,3次元融合過程を学習するために,教師の蒸留と自己学習によって訓練された新しい深度補完モデルを提案する。
また,地上の真理幾何に基づくシーン生成手法のベンチマーク手法も導入した。
論文 参考訳(メタデータ) (2024-04-30T17:59:40Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Learning Ego 3D Representation as Ray Tracing [42.400505280851114]
我々は、制約のないカメラビューからエゴ3D表現学習のための新しいエンドツーエンドアーキテクチャを提案する。
レイトレーシングの原理にインスパイアされた我々は、学習可能なエゴ3D表現として「虚視」の偏極格子を設計する。
我々のモデルはすべての最先端の代替品を著しく上回ります。
論文 参考訳(メタデータ) (2022-06-08T17:55:50Z) - Residual Pose: A Decoupled Approach for Depth-based 3D Human Pose
Estimation [18.103595280706593]
我々は,CNNによる信頼度の高い2次元ポーズ推定の最近の進歩を活用し,深度画像から人物の3次元ポーズを推定する。
提案手法は2つの公開データセットの精度と速度の両面で非常に競争力のある結果が得られる。
論文 参考訳(メタデータ) (2020-11-10T10:08:13Z) - Self-Supervised Monocular 3D Face Reconstruction by Occlusion-Aware
Multi-view Geometry Consistency [40.56510679634943]
マルチビュー幾何整合性を利用した自己教師付きトレーニングアーキテクチャを提案する。
画素の整合性損失,奥行きの整合性損失,顔のランドマークに基づくエピポーラロスを含む,多視点整合性のための3つの新しい損失関数を設計する。
提案手法は精度が高く,特に多彩な表現,ポーズ,照明条件下では堅牢である。
論文 参考訳(メタデータ) (2020-07-24T12:36:09Z) - Towards Realistic 3D Embedding via View Alignment [53.89445873577063]
本稿では,3次元モデルを2次元背景画像に現実的に,かつ自動的に埋め込み,新たな画像を構成する,革新的なビューアライメントGAN(VA-GAN)を提案する。
VA-GANはテクスチャジェネレータとディファレンシャルディスクリミネーターで構成され、相互接続され、エンドツーエンドのトレーニングが可能である。
論文 参考訳(メタデータ) (2020-07-14T14:45:00Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。