論文の概要: Learning a Geometric Representation for Data-Efficient Depth Estimation
via Gradient Field and Contrastive Loss
- arxiv url: http://arxiv.org/abs/2011.03207v2
- Date: Wed, 17 Mar 2021 05:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 04:42:01.010779
- Title: Learning a Geometric Representation for Data-Efficient Depth Estimation
via Gradient Field and Contrastive Loss
- Title(参考訳): 勾配場とコントラスト損失によるデータ効率な深度推定のための幾何学表現の学習
- Authors: Dongseok Shim and H. Jin Kim
- Abstract要約: 本研究では、コンブネットがラベルのない画像で幾何学的情報を抽出するのを支援するために、運動量差の少ない勾配に基づく自己教師付き学習アルゴリズムを提案する。
提案手法は,従来の自己教師付き学習アルゴリズムよりも優れ,ラベル付きデータの効率を3倍に向上させる。
- 参考スコア(独自算出の注目度): 29.798579906253696
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Estimating a depth map from a single RGB image has been investigated widely
for localization, mapping, and 3-dimensional object detection. Recent studies
on a single-view depth estimation are mostly based on deep Convolutional neural
Networks (ConvNets) which require a large amount of training data paired with
densely annotated labels. Depth annotation tasks are both expensive and
inefficient, so it is inevitable to leverage RGB images which can be collected
very easily to boost the performance of ConvNets without depth labels. However,
most self-supervised learning algorithms are focused on capturing the semantic
information of images to improve the performance in classification or object
detection, not in depth estimation. In this paper, we show that existing
self-supervised methods do not perform well on depth estimation and propose a
gradient-based self-supervised learning algorithm with momentum contrastive
loss to help ConvNets extract the geometric information with unlabeled images.
As a result, the network can estimate the depth map accurately with a
relatively small amount of annotated data. To show that our method is
independent of the model structure, we evaluate our method with two different
monocular depth estimation algorithms. Our method outperforms the previous
state-of-the-art self-supervised learning algorithms and shows the efficiency
of labeled data in triple compared to random initialization on the NYU Depth v2
dataset.
- Abstract(参考訳): 1枚のRGB画像から深度マップを推定し,局所化,マッピング,三次元物体検出のために広く研究されている。
シングルビュー深度推定に関する最近の研究は、主に深い畳み込みニューラルネットワーク(convnets)に基づいている。
深さアノテーションタスクは高価かつ非効率であるため、深さラベルなしでconvnetのパフォーマンスを向上させるために非常に簡単に収集できるrgbイメージを活用することは避けられない。
しかし、ほとんどの自己教師付き学習アルゴリズムは、奥行き推定ではなく、分類や物体検出のパフォーマンスを改善するために画像の意味情報を取得することに重点を置いている。
本稿では,既存の自己教師付き手法では深さ推定がうまく機能しないことを示すとともに,運動量コントラスト損失を伴う勾配に基づく自己教師付き学習アルゴリズムを提案する。
その結果、比較的少量の注釈付きデータで、ネットワークは正確に深度マップを推定できる。
本手法はモデル構造に依存しないことを示すため, 2種類の単分子深度推定アルゴリズムを用いて評価を行った。
本手法は,nyu深度v2データセットのランダム初期化と比較して,従来の最先端の自己教師付き学習アルゴリズムを上回り,ラベル付きデータの3倍精度を示す。
関連論文リスト
- SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs [49.55919802779889]
本稿では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。
本研究では、幾何学的表現学習において、畳み込みニューラルネットワークとグラフニューラルネットワークを相補的に活用する。
提案手法は,数段の伝搬ステップのみを使用する場合と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-19T17:56:03Z) - 360 Depth Estimation in the Wild -- The Depth360 Dataset and the SegFuse
Network [35.03201732370496]
全方位画像からの一視点深度推定は、自律運転やシーン再構築といった幅広い応用で人気を博している。
本研究ではまず,トレーニングデータ問題に対処するため,Depth360と呼ばれるさまざまな設定の大規模データセットを構築した。
次に、人間の眼を模倣してデータセットから効果的に学習する、エンドツーエンドのマルチタスク学習ネットワークであるSegFuseを提案する。
論文 参考訳(メタデータ) (2022-02-16T11:56:31Z) - Depth Refinement for Improved Stereo Reconstruction [13.941756438712382]
立体画像からの深度推定の現在の技術は、なおも内蔵の欠点に悩まされている。
簡単な解析により、深度誤差は物体の距離に2乗比例することが明らかになった。
本研究では,深度推定に改良ネットワークを用いた簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-12-15T12:21:08Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View
Depth Estimation with Neural Positional Encoding and Distilled Matting Loss [49.66736599668501]
PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。
提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
論文 参考訳(メタデータ) (2021-03-12T15:54:46Z) - Towards Better Generalization: Joint Depth-Pose Learning without PoseNet [36.414471128890284]
自己教師型共同深層学習におけるスケール不整合の本質的問題に対処する。
既存の手法の多くは、全ての入力サンプルで一貫した深さとポーズを学習できると仮定している。
本稿では,ネットワーク推定からスケールを明示的に切り離す新しいシステムを提案する。
論文 参考訳(メタデータ) (2020-04-03T00:28:09Z) - Occlusion-Aware Depth Estimation with Adaptive Normal Constraints [85.44842683936471]
カラービデオから多フレーム深度を推定する新しい学習手法を提案する。
本手法は深度推定精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2020-04-02T07:10:45Z) - DELTAS: Depth Estimation by Learning Triangulation And densification of
Sparse points [14.254472131009653]
多視点ステレオ (MVS) は, 能動深度センシングの精度と単眼深度推定の実用性の間の黄金平均値である。
3次元畳み込みニューラルネットワーク(CNN)を用いたコストボリュームベースのアプローチにより、MVSシステムの精度が大幅に向上した。
まず、(a)興味点の記述子を検出して評価し、次に(b)興味点の小さな集合をマッチングして三角測量し、最後に(c)CNNを用いてこのスパースな3D点の集合を密度化することで、効率的な深さ推定手法を提案する。
論文 参考訳(メタデータ) (2020-03-19T17:56:41Z) - Single Image Depth Estimation Trained via Depth from Defocus Cues [105.67073923825842]
単一のRGB画像から深度を推定することはコンピュータビジョンの基本的な課題である。
この作業では、異なる視点ではなく、フォーカスキューからの奥行きに依存しています。
我々は,KITTIとMake3Dデータセットの教師あり手法と同等な結果を提示し,教師なし学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-01-14T20:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。