論文の概要: Learning Depth With Very Sparse Supervision
- arxiv url: http://arxiv.org/abs/2003.00752v2
- Date: Thu, 16 Jul 2020 10:01:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 04:12:49.369794
- Title: Learning Depth With Very Sparse Supervision
- Title(参考訳): 超スパーススーパービジョンによる深度学習
- Authors: Antonio Loquercio, Alexey Dosovitskiy, and Davide Scaramuzza
- Abstract要約: 本稿では, 環境との相互作用を通じて, 知覚が世界の3次元特性と結合するという考えを考察する。
我々は、環境と対話するロボットが利用できるような、特殊なグローバルローカルネットワークアーキテクチャを訓練する。
いくつかのデータセットの実験では、画像ピクセルの1つでも基底真理が利用できる場合、提案されたネットワークは、最先端のアプローチよりも22.5%の精度でモノクロの深度推定を学習できることを示している。
- 参考スコア(独自算出の注目度): 57.911425589947314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by the astonishing capabilities of natural intelligent agents and
inspired by theories from psychology, this paper explores the idea that
perception gets coupled to 3D properties of the world via interaction with the
environment. Existing works for depth estimation require either massive amounts
of annotated training data or some form of hard-coded geometrical constraint.
This paper explores a new approach to learning depth perception requiring
neither of those. Specifically, we train a specialized global-local network
architecture with what would be available to a robot interacting with the
environment: from extremely sparse depth measurements down to even a single
pixel per image. From a pair of consecutive images, our proposed network
outputs a latent representation of the observer's motion between the images and
a dense depth map. Experiments on several datasets show that, when ground truth
is available even for just one of the image pixels, the proposed network can
learn monocular dense depth estimation up to 22.5% more accurately than
state-of-the-art approaches. We believe that this work, despite its scientific
interest, lays the foundations to learn depth from extremely sparse
supervision, which can be valuable to all robotic systems acting under severe
bandwidth or sensing constraints.
- Abstract(参考訳): 自然知的エージェントの驚くべき能力に触発され、心理学の理論に触発された本研究では、環境との相互作用を通じて知覚が世界の3次元特性と結合されるという考えを探求する。
既存の深度推定には大量の注釈付きトレーニングデータか、ハードコードされた幾何的制約が必要である。
本稿では,これらを必要としない深度知覚を学習するための新しいアプローチについて検討する。
具体的には、環境と相互作用するロボットが利用できる特殊なグローバルローカルネットワークアーキテクチャをトレーニングする。
一対の連続した画像から,提案するネットワークは,画像と深度マップとの間の観測者の動きの潜時表現を出力する。
いくつかのデータセットの実験では、画像ピクセルの1つでも基底真理が利用できる場合、提案されたネットワークは、最先端のアプローチよりも22.5%の精度でモノクロの深度推定を学習することができる。
この研究は科学的な関心をよそに、非常にまばらな監視から深く学ぶための基礎を築き上げていると我々は信じている。
関連論文リスト
- Embodiment: Self-Supervised Depth Estimation Based on Camera Models [17.931220115676258]
自己監督法はラベル付けコストを伴わないため、大きな可能性を秘めている。
しかし, 自己指導型学習は, 3次元再構成と深度推定性能において, 教師あり学習と大きなギャップがある。
カメラの物理的特性をモデルに埋め込むことで、地上領域と地上に接続された領域の深さ先を計算できる。
論文 参考訳(メタデータ) (2024-08-02T20:40:19Z) - Calibrating Panoramic Depth Estimation for Practical Localization and
Mapping [20.621442016969976]
周囲環境の絶対深度値は, 局所化, ナビゲーション, 3次元構造推定など, 様々な補助技術にとって重要な手がかりとなる。
本研究では,パノラマ画像から推定される精度の高い深度が,3次元情報を必要とする幅広い下流タスクに対して,強力で軽量な入力として機能することを提案する。
論文 参考訳(メタデータ) (2023-08-27T04:50:05Z) - Self-Guided Instance-Aware Network for Depth Completion and Enhancement [6.319531161477912]
既存の手法では,画素ワイド画像の内容とそれに対応する近傍の深度値に基づいて,欠落した深度測定を直接補間する。
本稿では、自己誘導機構を利用して、深度復元に必要なインスタンスレベルの特徴を抽出する自己誘導型インスタンス認識ネットワーク(SG-IANet)を提案する。
論文 参考訳(メタデータ) (2021-05-25T19:41:38Z) - S2R-DepthNet: Learning a Generalizable Depth-specific Structural
Representation [63.58891781246175]
人間はリアルなイメージではなくスケッチからシーンの3次元幾何学を推測することができ、空間構造がシーンの深さを理解する上で基本的な役割を果たすことを示す。
我々は,深度推定に不可欠な特徴を捉え,無関係なスタイル情報を無視する,深度特異的な構造表現の学習を初めて行う。
当社のS2R-DepthNetは、合成データでのみ訓練されているにもかかわらず、目に見えない実際のデータに直接一般化できます。
論文 参考訳(メタデータ) (2021-04-02T03:55:41Z) - Learning Joint 2D-3D Representations for Depth Completion [90.62843376586216]
2Dおよび3Dの関節の特徴を抽出することを学ぶシンプルで効果的なニューラルネットワークブロックを設計します。
具体的には、画像画素に2D畳み込みと3D点に連続畳み込みを施した2つのドメイン固有のサブネットワークから構成される。
論文 参考訳(メタデータ) (2020-12-22T22:58:29Z) - Depth by Poking: Learning to Estimate Depth from Self-Supervised
Grasping [6.382990675677317]
我々は、RGB-D画像から深度を推定するためにニューラルネットワークモデルを訓練する。
我々のネットワークは、入力画像の各ピクセルについて、ロボットのエンドエフェクターが対応する位置をつかんだり突いたりしようとすると、Z位置が到達すると予測する。
本手法は従来の構造光センサよりも根平均二乗誤差が有意に低いことを示す。
論文 参考訳(メタデータ) (2020-06-16T03:34:26Z) - VisualEchoes: Spatial Image Representation Learning through Echolocation [97.23789910400387]
いくつかの動物種(コウモリ、イルカ、クジラなど)や視覚障害者さえもエコーロケーションを行う能力を持っている。
エコーロケーションを用いて有用な視覚特徴を学習する対話型表現学習フレームワークを提案する。
我々の研究は、物理的世界との相互作用によって監督される、エンボディエージェントのための表現学習の新しい道を開く。
論文 参考訳(メタデータ) (2020-05-04T16:16:58Z) - Distilled Semantics for Comprehensive Scene Understanding from Videos [53.49501208503774]
本稿では,一眼レフカメラによる全体像の理解に向けて,セマンティクスとともに深度や動きを学習し,さらなる一歩を踏み出した。
これら3つの課題を,知識蒸留と自己監督に基づく新たなトレーニングプロトコルによって共同で解決する。
その結果, 単眼深度推定, 光流, モーションセグメンテーションの最先端結果が得られた。
論文 参考訳(メタデータ) (2020-03-31T08:52:13Z) - Deep 3D Capture: Geometry and Reflectance from Sparse Multi-View Images [59.906948203578544]
本稿では,任意の物体の高品質な形状と複雑な空間変化を持つBRDFを再構成する学習に基づく新しい手法を提案する。
まず、深層多視点ステレオネットワークを用いて、ビューごとの深度マップを推定する。
これらの深度マップは、異なるビューを粗く整列するために使用される。
本稿では,新しい多視点反射率推定ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-03-27T21:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。