論文の概要: AugUndo: Scaling Up Augmentations for Unsupervised Depth Completion
- arxiv url: http://arxiv.org/abs/2310.09739v2
- Date: Tue, 26 Dec 2023 04:41:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 21:42:20.285613
- Title: AugUndo: Scaling Up Augmentations for Unsupervised Depth Completion
- Title(参考訳): AugUndo: 教師なし深度補完のための拡張のスケールアップ
- Authors: Yangchao Wu, Tian Yu Liu, Hyoungseob Park, Stefano Soatto, Dong Lao,
Alex Wong
- Abstract要約: そこで本稿では,教師なし深度補完のために,従来不可能であった幾何拡張の幅広い範囲をアンロックする手法を提案する。
これは、出力深さの座標への幾何変換を反転、あるいは「アンド」し、深度マップを元の参照フレームに戻すことで達成される。
- 参考スコア(独自算出の注目度): 54.1925051672779
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised depth completion methods are trained by minimizing sparse depth
and image reconstruction error. Block artifacts from resampling, intensity
saturation, and occlusions are amongst the many undesirable by-products of
common data augmentation schemes that affect image reconstruction quality, and
thus the training signal. Hence, typical augmentations on images viewed as
essential to training pipelines in other vision tasks have seen limited use
beyond small image intensity changes and flipping. The sparse depth modality
have seen even less as intensity transformations alter the scale of the 3D
scene, and geometric transformations may decimate the sparse points during
resampling. We propose a method that unlocks a wide range of
previously-infeasible geometric augmentations for unsupervised depth
completion. This is achieved by reversing, or ``undo"-ing, geometric
transformations to the coordinates of the output depth, warping the depth map
back to the original reference frame. This enables computing the reconstruction
losses using the original images and sparse depth maps, eliminating the
pitfalls of naive loss computation on the augmented inputs. This simple yet
effective strategy allows us to scale up augmentations to boost performance. We
demonstrate our method on indoor (VOID) and outdoor (KITTI) datasets where we
improve upon three existing methods by an average of 11.75% across both
datasets.
- Abstract(参考訳): スパース深度と画像再構成誤差を最小化することにより、教師なし深度補完法を訓練する。
再サンプリング、強度飽和、オクルージョンからのアーティファクトのブロックは、画像再構成の品質に影響する一般的なデータ拡張スキームの好ましくない副産物であり、トレーニング信号である。
したがって、他のビジョンタスクのトレーニングパイプラインに必須であると思われるイメージの典型的な拡張は、小さな画像インテンシティの変更とフリップ以外には使用が限られている。
密度変換が3次元シーンのスケールを変え、幾何学変換が再サンプリング中にスパースポイントを分解するので、スパース深さのモジュラリティはさらに小さくなっている。
そこで本稿では,教師なし深度補完のために,従来不可能であった幾何拡張の幅広い範囲をアンロックする手法を提案する。
これは、出力深さの座標への幾何変換を反転または ` `undo'-ing し、深度マップを元の参照フレームに戻すことで達成される。
これにより、元の画像とスパース深度マップを用いて復元損失を計算し、拡張された入力に対するナイーブ損失計算の落とし穴をなくすことができる。
このシンプルで効果的な戦略により、パフォーマンスを高めるために拡張をスケールアップできます。
室内(VOID)と屋外(KITTI)のデータセットに対して,各データセットの平均11.75%で既存の3つの手法を改善した手法を実証した。
関連論文リスト
- RigNet++: Semantic Assisted Repetitive Image Guided Network for Depth
Completion [31.70022495622075]
画像案内ネットワークにおける繰り返し設計を探索し、徐々に十分に深度を復元する。
前者では,複雑な環境の識別画像の特徴を抽出するために,高密度繰り返し時間ガラスネットワーク(DRHN)を設計する。
後者では,動的畳み込みに基づく反復誘導(RG)モジュールを提案する。
さらに,領域認識型空間伝搬ネットワーク(RASPN)を提案する。
論文 参考訳(メタデータ) (2023-09-01T09:11:20Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Enhancing Neural Rendering Methods with Image Augmentations [59.00067936686825]
本研究では,3次元シーンの学習型ニューラルレンダリング法(NRM)における画像拡張の利用について検討した。
トレーニング中に画像拡張を導入すると、幾何学的および測光的不整合などの課題が生じる。
本実験は,NRMの学習において,光学的品質向上や表面再構成など,拡張を取り入れることの利点を実証するものである。
論文 参考訳(メタデータ) (2023-06-15T07:18:27Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - Deep Generalized Unfolding Networks for Image Restoration [16.943609020362395]
画像復元のためのDeep Generalized Unfolding Network (DGUNet)を提案する。
我々は、勾配推定戦略をPGDアルゴリズムの勾配降下ステップに統合する。
我々の手法は、最先端の性能、解釈可能性、一般化可能性の点で優れている。
論文 参考訳(メタデータ) (2022-04-28T08:39:39Z) - RigNet: Repetitive Image Guided Network for Depth Completion [20.66405067066299]
近年のアプローチは、高密度な結果を予測するためのイメージガイド学習に重点を置いている。
ぼやけたイメージガイダンスとオブジェクト構造は、まだイメージガイドされたフレームワークのパフォーマンスを妨げている。
画像案内ネットワークにおける反復的な設計を探索し,徐々に深度値の回復を図る。
提案手法は,NYUv2データセットの最先端化を実現し,提出時のKITTIベンチマークで1位にランクインする。
論文 参考訳(メタデータ) (2021-07-29T08:00:33Z) - Geometry-aware data augmentation for monocular 3D object detection [18.67567745336633]
本稿では,自動運転システムにおける必須モジュールの一つであるモノキュラー3次元物体検出について述べる。
重要な課題は、深さ回復問題は単眼データに不備があることです。
我々は,既存の手法が,異なる幾何学的シフトが発生した場合の深さをロバストに推定できないことを明らかにするために,詳細な解析を行う。
上記の操作を,対応する4つの3D対応データ拡張手法に変換する。
論文 参考訳(メタデータ) (2021-04-12T23:12:48Z) - Learning to Recover 3D Scene Shape from a Single Image [98.20106822614392]
まず,未知のスケールまで深さを予測し,単一の単眼画像からシフトする2段階フレームワークを提案する。
そして、3dポイントクラウドエンコーダを使って深度シフトと焦点距離を予測し、リアルな3dシーンの形状を復元します。
論文 参考訳(メタデータ) (2020-12-17T02:35:13Z) - Depth Completion Using a View-constrained Deep Prior [73.21559000917554]
近年の研究では、畳み込みニューラルネットワーク(CNN)の構造が、自然画像に有利な強い先行性をもたらすことが示されている。
この前者はディープ・イメージ・先行 (DIP) と呼ばれ、画像の装飾や塗装といった逆問題において有効な正則化器である。
我々は、DIPの概念を深度画像に拡張し、色画像とノイズと不完全な目標深度マップから、CNNネットワーク構造を先行して復元された深度マップを再構成する。
論文 参考訳(メタデータ) (2020-01-21T21:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。