論文の概要: Masked GANs for Unsupervised Depth and Pose Prediction with Scale
Consistency
- arxiv url: http://arxiv.org/abs/2004.04345v3
- Date: Tue, 13 Apr 2021 14:05:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 03:22:08.605674
- Title: Masked GANs for Unsupervised Depth and Pose Prediction with Scale
Consistency
- Title(参考訳): 教師なし深さに対するマスク付きGANとスケール一貫性によるポース予測
- Authors: Chaoqiang Zhao, Gary G. Yen, Qiyu Sun, Chongzhen Zhang and Yang Tang
- Abstract要約: 本稿では,教師なし単眼深度と自我運動推定のためのマスク付き生成対向ネットワーク(GAN)を提案する。
The MaskNet and Boolean mask scheme was designed to eliminate the effect of occlusions and effects of visual field change on the reconstruction loss and adversarial loss。
- 参考スコア(独自算出の注目度): 18.10657948047875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous work has shown that adversarial learning can be used for
unsupervised monocular depth and visual odometry (VO) estimation, in which the
adversarial loss and the geometric image reconstruction loss are utilized as
the mainly supervisory signals to train the whole unsupervised framework.
However, the performance of the adversarial framework and image reconstruction
is usually limited by occlusions and the visual field changes between frames.
This paper proposes a masked generative adversarial network (GAN) for
unsupervised monocular depth and ego-motion estimation.The MaskNet and Boolean
mask scheme are designed in this framework to eliminate the effects of
occlusions and impacts of visual field changes on the reconstruction loss and
adversarial loss, respectively. Furthermore, we also consider the scale
consistency of our pose network by utilizing a new scale-consistency loss, and
therefore, our pose network is capable of providing the full camera trajectory
over a long monocular sequence. Extensive experiments on the KITTI dataset show
that each component proposed in this paper contributes to the performance, and
both our depth and trajectory predictions achieve competitive performance on
the KITTI and Make3D datasets.
- Abstract(参考訳): 前回の研究では、非教師なしの単眼深度と視覚オドメトリ(vo)推定に、主に教師なしフレームワーク全体を訓練するための監督信号として、敵対的損失と幾何学的画像再構成損失を活用できることが示されている。
しかし, 敵対的枠組みの性能や画像再構成は, 通常は閉塞や視野の変化によって制限される。
本稿では,非教師付き単眼深度と自我運動推定のためのマスク付き生成対向ネットワーク(GAN)を提案する。
また,新たなスケール・コンシスタンシー損失を利用することで,ポーズネットワークのスケール一貫性も考慮し,長時間の単眼列上でのフルカメラ軌道を提供することができる。
KITTIデータセットの大規模な実験により,本論文で提案した各コンポーネントが性能に寄与し,KITTIデータセットとMake3Dデータセットの深度と軌跡予測の両方が競合性能を達成することが示された。
関連論文リスト
- Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。
しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。
様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - W-Net: A Facial Feature-Guided Face Super-Resolution Network [8.037821981254389]
Face Super-Resolutionは、高解像度 (HR) の顔画像を低解像度 (LR) の顔画像から復元することを目的としている。
既存手法は, 再建効率が低く, 事前情報の利用が不十分であるため, 理想的ではない。
本稿では,この課題に対処するため,W-Netと呼ばれる新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-06-02T09:05:40Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - FG-Depth: Flow-Guided Unsupervised Monocular Depth Estimation [17.572459787107427]
そこで本研究では,典型的な測光損失を代替する流量蒸留損失と,不適切な画素を除去するための前向きフローベースマスクを提案する。
提案手法は,KITTIとNYU-Depth-v2の両方のデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2023-01-20T04:02:13Z) - Adversarial Attacks on Monocular Pose Estimation [13.7258515433446]
単眼深度を対象とする対向摂動とポーズ推定ネットワークの関係について検討する。
我々の実験は、生成した摂動が相対回転および翻訳予測において顕著な誤差をもたらすことを示す。
論文 参考訳(メタデータ) (2022-07-14T16:12:31Z) - Unsupervised Scale-consistent Depth Learning from Video [131.3074342883371]
本研究では,単眼深度推定器SC-Depthを提案する。
スケール一貫性予測の能力により,我々の単分子学習深層ネットワークは簡単にORB-SLAM2システムに統合可能であることを示す。
提案したハイブリッドPseudo-RGBD SLAMは、KITTIにおいて魅力的な結果を示し、追加のトレーニングなしでKAISTデータセットにうまく一般化する。
論文 参考訳(メタデータ) (2021-05-25T02:17:56Z) - Unsupervised Monocular Depth Learning with Integrated Intrinsics and
Spatio-Temporal Constraints [61.46323213702369]
本研究は,大規模深度マップとエゴモーションを予測可能な教師なし学習フレームワークを提案する。
本結果は,KITTI運転データセットの複数シーケンスにおける現在の最先端技術と比較して,高い性能を示す。
論文 参考訳(メタデータ) (2020-11-02T22:26:58Z) - Deep Semantic Matching with Foreground Detection and Cycle-Consistency [103.22976097225457]
深層ネットワークに基づく弱い教師付きセマンティックマッチングに対処する。
本研究では,背景乱れの影響を抑えるために,前景領域を明示的に推定する。
複数の画像にまたがって予測変換を強制し、幾何的に可視かつ一貫したサイクル一貫性の損失を発生させる。
論文 参考訳(メタデータ) (2020-03-31T22:38:09Z) - FIS-Nets: Full-image Supervised Networks for Monocular Depth Estimation [14.454378082294852]
画像の整合性を利用する教師なしのフレームワークと、深い深度補完を行う教師なしのフレームワークを組み合わせた半教師付きアーキテクチャを提案する。
評価において,提案手法は深度推定における他の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-01-19T06:04:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。