論文の概要: ADAADepth: Adapting Data Augmentation and Attention for Self-Supervised
Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2103.00853v1
- Date: Mon, 1 Mar 2021 09:06:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 16:36:26.690417
- Title: ADAADepth: Adapting Data Augmentation and Attention for Self-Supervised
Monocular Depth Estimation
- Title(参考訳): ADAADepth: 自己監督単眼深推定のためのデータ拡張と注意の適応
- Authors: Vinay Kaushik, Kartik Jindgar and Brejesh Lall
- Abstract要約: 深度向上を深度監督として活用し、正確で堅牢な深度を学習するADAAを提案します。
本稿では,リッチなコンテキスト特徴を学習し,さらに深度を向上するリレーショナル自己認識モジュールを提案する。
KITTI運転データセットの予測深度を評価し、最新の結果を実現します。
- 参考スコア(独自算出の注目度): 8.827921242078881
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Self-supervised learning of depth has been a highly studied topic of research
as it alleviates the requirement of having ground truth annotations for
predicting depth. Depth is learnt as an intermediate solution to the task of
view synthesis, utilising warped photometric consistency. Although it gives
good results when trained using stereo data, the predicted depth is still
sensitive to noise, illumination changes and specular reflections. Also,
occlusion can be tackled better by learning depth from a single camera. We
propose ADAA, utilising depth augmentation as depth supervision for learning
accurate and robust depth. We propose a relational self-attention module that
learns rich contextual features and further enhances depth results. We also
optimize the auto-masking strategy across all losses by enforcing L1
regularisation over mask. Our novel progressive training strategy first learns
depth at a lower resolution and then progresses to the original resolution with
slight training. We utilise a ResNet18 encoder, learning features for
prediction of both depth and pose. We evaluate our predicted depth on the
standard KITTI driving dataset and achieve state-of-the-art results for
monocular depth estimation whilst having significantly lower number of
trainable parameters in our deep learning framework. We also evaluate our model
on Make3D dataset showing better generalization than other methods.
- Abstract(参考訳): 深度に関する自己教師付き学習は、深度を予測するための基礎的な真理アノテーションを持つことの必要性を軽減するため、高度に研究された研究トピックである。
深度は視線合成のタスクの中間解として学習され、歪んだ光度整合性を利用する。
ステレオデータを用いてトレーニングすると良い結果が得られるが、予測深度は依然としてノイズや照明の変化、スペクトル反射に敏感である。
また、単一のカメラから奥行きを学習することで、咬合にもより取り組むことができる。
深度向上を深度監督として活用し、正確で堅牢な深度を学習するADAAを提案します。
本稿では,リッチなコンテキスト特徴を学習し,さらに深度を向上するリレーショナル自己認識モジュールを提案する。
また,マスク上のL1正規化を強制することにより,全損失に対する自動マスキング戦略を最適化する。
新たなプログレッシブトレーニング戦略は,まず低い解像度で奥行きを学習し,その後,わずかなトレーニングで元の解像度に進行する。
ResNet18エンコーダを使用して、深度とポーズの両方を予測する機能を学びます。
我々は,標準KITTI駆動データセットの予測深度を評価し,ディープラーニングフレームワークにおいてトレーニング可能なパラメータの数が著しく少ない一方,単眼深度推定の最先端結果を得た。
また,Make3Dデータセット上で,他の手法よりも優れた一般化を示すモデルの評価を行った。
関連論文リスト
- Depth Prompting for Sensor-Agnostic Depth Estimation [19.280536006736575]
我々は,新しい深度分布に応じて望ましい特徴表現を可能にするために,新しい深度プロンプトモジュールを設計する。
提案手法は,事前学習したモデルに対して,深度スキャン範囲の制限を不要とし,絶対スケールの深度マップを提供する。
論文 参考訳(メタデータ) (2024-05-20T08:19:08Z) - Robust Depth Enhancement via Polarization Prompt Fusion Tuning [112.88371907047396]
様々な深度センサによる不正確な深度測定を改善するために偏光イメージングを利用するフレームワークを提案する。
まず、偏光データとセンサ深度マップから高密度で完全な深度マップを推定するために、ニューラルネットワークを訓練した学習ベースの戦略を採用する。
大規模データセット上で事前学習したRGBモデルを有効に活用するためのPPFT(Polarization Prompt Fusion Tuning)戦略を提案する。
論文 参考訳(メタデータ) (2024-04-05T17:55:33Z) - Learning to Adapt CLIP for Few-Shot Monocular Depth Estimation [31.34615135846137]
単眼深度推定に視覚言語モデルを適用することを学習する,数発のショットベース手法を提案する。
具体的には、異なるシーンに異なる深度ビンを割り当て、推論中にモデルによって選択できる。
トレーニング用シーンあたりのイメージが1つしかないため、NYU V2とKITTIデータセットによる大規模な実験結果から、我々の手法が従来の最先端の手法を最大10.6%上回っていることが示された。
論文 参考訳(メタデータ) (2023-11-02T06:56:50Z) - Self-Supervised Learning based Depth Estimation from Monocular Images [0.0]
単色深度推定の目標は、入力として2次元単色RGB画像が与えられた深度マップを予測することである。
我々は、トレーニング中に固有のカメラパラメータを実行し、我々のモデルをさらに一般化するために天気増悪を適用することを計画している。
論文 参考訳(メタデータ) (2023-04-14T07:14:08Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - Learning Occlusion-Aware Coarse-to-Fine Depth Map for Self-supervised
Monocular Depth Estimation [11.929584800629673]
自己教師付き単眼深度推定のためのOcclusion-aware Coarse-to-Fine Depth Mapを学習するための新しいネットワークを提案する。
提案したOCFD-Netは,粗度深度マップの学習に離散深度制約を用いるだけでなく,シーン深度残差の学習にも連続深度制約を用いる。
論文 参考訳(メタデータ) (2022-03-21T12:43:42Z) - Geometry Uncertainty Projection Network for Monocular 3D Object
Detection [138.24798140338095]
本稿では,予測および学習段階の誤り増幅問題に対処するために,幾何不確実性予測ネットワーク(GUP Net)を提案する。
具体的には, GUPモジュールを提案し, 推定深さの幾何誘導不確かさを求める。
トレーニング段階では,エラー増幅による不安定性を低減するための階層型タスク学習戦略を提案する。
論文 参考訳(メタデータ) (2021-07-29T06:59:07Z) - Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文 参考訳(メタデータ) (2021-03-07T00:08:21Z) - Deep feature fusion for self-supervised monocular depth prediction [7.779007880126907]
スクラッチから自己教師付き深度を学習するための深部特徴融合法を提案する。
核融合ネットワークはエンコーダネットワークの各レベルにおける上層と下層の両方の機能を選択する。
また,高次深度と低次深度深度から高次残留深度を学習する改良モジュールを提案する。
論文 参考訳(メタデータ) (2020-05-16T09:42:36Z) - Don't Forget The Past: Recurrent Depth Estimation from Monocular Video [92.84498980104424]
私たちは3つの異なる種類の深さ推定を共通のフレームワークに組み込んだ。
提案手法は, 時系列の深度マップを生成する。
モノクロビデオにのみ適用したり、異なる種類のスパース深度パターンと組み合わせたりすることができる。
論文 参考訳(メタデータ) (2020-01-08T16:50:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。