論文の概要: AugUndo: Scaling Up Augmentations for Monocular Depth Completion and Estimation
- arxiv url: http://arxiv.org/abs/2310.09739v3
- Date: Sat, 20 Jul 2024 01:28:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 05:36:51.447171
- Title: AugUndo: Scaling Up Augmentations for Monocular Depth Completion and Estimation
- Title(参考訳): AugUndo: 単眼の深度補完と推定のための拡張のスケールアップ
- Authors: Yangchao Wu, Tian Yu Liu, Hyoungseob Park, Stefano Soatto, Dong Lao, Alex Wong,
- Abstract要約: 本研究では,教師なし深度計算と推定のために,従来不可能であった幾何拡張の幅広い範囲をアンロックする手法を提案する。
これは、出力深さの座標への幾何変換を反転、あるいはアンドウイング(undo''-ing)し、深度マップを元の参照フレームに戻すことで達成される。
- 参考スコア(独自算出の注目度): 51.143540967290114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised depth completion and estimation methods are trained by minimizing reconstruction error. Block artifacts from resampling, intensity saturation, and occlusions are amongst the many undesirable by-products of common data augmentation schemes that affect image reconstruction quality, and thus the training signal. Hence, typical augmentations on images viewed as essential to training pipelines in other vision tasks have seen limited use beyond small image intensity changes and flipping. The sparse depth modality in depth completion have seen even less use as intensity transformations alter the scale of the 3D scene, and geometric transformations may decimate the sparse points during resampling. We propose a method that unlocks a wide range of previously-infeasible geometric augmentations for unsupervised depth completion and estimation. This is achieved by reversing, or ``undo''-ing, geometric transformations to the coordinates of the output depth, warping the depth map back to the original reference frame. This enables computing the reconstruction losses using the original images and sparse depth maps, eliminating the pitfalls of naive loss computation on the augmented inputs and allowing us to scale up augmentations to boost performance. We demonstrate our method on indoor (VOID) and outdoor (KITTI) datasets, where we consistently improve upon recent methods across both datasets as well as generalization to four other datasets. Code available at: https://github.com/alexklwong/augundo.
- Abstract(参考訳): 再構成誤差を最小化することにより、教師なし深度補完と推定法を訓練する。
再サンプリング、強度飽和、オクルージョンからのブロックアーティファクトは、画像再構成の品質に影響を及ぼす共通のデータ拡張スキームの多くの望ましくない副産物であり、したがって訓練信号である。
したがって、他のビジョンタスクにおけるパイプラインのトレーニングに不可欠な画像に対する典型的な拡張は、小さな画像強度の変化やフリップを超えて、限られた使用しか見ていない。
密度変換が3次元シーンのスケールを変え、幾何学的変換が再サンプリング中にスパースポイントを分解するので、深さ完了におけるスパース深さのモジュラリティはさらに小さくなっている。
教師なし深度補完と推定のために,従来不可能であった幾何拡張の幅広い範囲をアンロックする手法を提案する。
これは、出力深さの座標への幾何変換を反転または ` `undo''-ing し、深度マップを元の参照フレームに戻すことで達成される。
これにより、元の画像とスパース深度マップを用いて復元損失を計算し、拡張された入力に対するナイーブ損失計算の落とし穴をなくし、拡張処理を拡大して性能を向上させることができる。
室内(VOID)と屋外(KITTI)のデータセットに対して本手法を実証し,両データセット間の最近の手法と,他の4つのデータセットへの一般化を一貫して改善する。
コードは、https://github.com/alexklwong/augundo.comで入手できる。
関連論文リスト
- Temporal Lidar Depth Completion [0.08192907805418582]
PENetは, 再発の恩恵を受けるために, 最新の手法であるPENetをどう修正するかを示す。
提案アルゴリズムは,KITTI深度補完データセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2024-06-17T08:25:31Z) - Robust Geometry-Preserving Depth Estimation Using Differentiable
Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。
包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。
我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文 参考訳(メタデータ) (2023-09-18T12:36:39Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - Deep Generalized Unfolding Networks for Image Restoration [16.943609020362395]
画像復元のためのDeep Generalized Unfolding Network (DGUNet)を提案する。
我々は、勾配推定戦略をPGDアルゴリズムの勾配降下ステップに統合する。
我々の手法は、最先端の性能、解釈可能性、一般化可能性の点で優れている。
論文 参考訳(メタデータ) (2022-04-28T08:39:39Z) - Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文 参考訳(メタデータ) (2021-03-07T00:08:21Z) - Learning to Recover 3D Scene Shape from a Single Image [98.20106822614392]
まず,未知のスケールまで深さを予測し,単一の単眼画像からシフトする2段階フレームワークを提案する。
そして、3dポイントクラウドエンコーダを使って深度シフトと焦点距離を予測し、リアルな3dシーンの形状を復元します。
論文 参考訳(メタデータ) (2020-12-17T02:35:13Z) - Towards Better Generalization: Joint Depth-Pose Learning without PoseNet [36.414471128890284]
自己教師型共同深層学習におけるスケール不整合の本質的問題に対処する。
既存の手法の多くは、全ての入力サンプルで一貫した深さとポーズを学習できると仮定している。
本稿では,ネットワーク推定からスケールを明示的に切り離す新しいシステムを提案する。
論文 参考訳(メタデータ) (2020-04-03T00:28:09Z) - Depth Completion Using a View-constrained Deep Prior [73.21559000917554]
近年の研究では、畳み込みニューラルネットワーク(CNN)の構造が、自然画像に有利な強い先行性をもたらすことが示されている。
この前者はディープ・イメージ・先行 (DIP) と呼ばれ、画像の装飾や塗装といった逆問題において有効な正則化器である。
我々は、DIPの概念を深度画像に拡張し、色画像とノイズと不完全な目標深度マップから、CNNネットワーク構造を先行して復元された深度マップを再構成する。
論文 参考訳(メタデータ) (2020-01-21T21:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。