論文の概要: $S^3$Net: Semantic-Aware Self-supervised Depth Estimation with Monocular
Videos and Synthetic Data
- arxiv url: http://arxiv.org/abs/2007.14511v1
- Date: Tue, 28 Jul 2020 22:40:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 02:37:46.727481
- Title: $S^3$Net: Semantic-Aware Self-supervised Depth Estimation with Monocular
Videos and Synthetic Data
- Title(参考訳): S^3$Net:モノクロ映像と合成データを用いた意味認識型自己監督深度推定
- Authors: Bin Cheng, Inderjot Singh Saggu, Raunak Shah, Gaurav Bansal, Dinesh
Bharadia
- Abstract要約: S3$Netは、学習のための合成画像と実世界の画像を組み合わせた自己教師型フレームワークである。
我々は、この自己教師付きフレームワークをトレーニングするユニークな方法を示し、従来の合成教師付きアプローチよりも15%以上の改善を実現した。
- 参考スコア(独自算出の注目度): 11.489124536853172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Solving depth estimation with monocular cameras enables the possibility of
widespread use of cameras as low-cost depth estimation sensors in applications
such as autonomous driving and robotics. However, learning such a scalable
depth estimation model would require a lot of labeled data which is expensive
to collect. There are two popular existing approaches which do not require
annotated depth maps: (i) using labeled synthetic and unlabeled real data in an
adversarial framework to predict more accurate depth, and (ii) unsupervised
models which exploit geometric structure across space and time in monocular
video frames. Ideally, we would like to leverage features provided by both
approaches as they complement each other; however, existing methods do not
adequately exploit these additive benefits. We present $S^3$Net, a
self-supervised framework which combines these complementary features: we use
synthetic and real-world images for training while exploiting geometric,
temporal, as well as semantic constraints. Our novel consolidated architecture
provides a new state-of-the-art in self-supervised depth estimation using
monocular videos. We present a unique way to train this self-supervised
framework, and achieve (i) more than $15\%$ improvement over previous synthetic
supervised approaches that use domain adaptation and (ii) more than $10\%$
improvement over previous self-supervised approaches which exploit geometric
constraints from the real data.
- Abstract(参考訳): 単眼カメラによる深度推定は、自律運転やロボット工学などの応用において、低コストの深度推定センサとしてカメラを広く利用することができる。
しかし、このようなスケーラブルな深度推定モデルを学ぶには、大量のラベル付きデータが必要である。
注釈付き深度マップを必要としない既存のアプローチは2つある。
一 敵の枠組みにおけるラベル付き合成及び未ラベル実データを用いてより正確な深度を予測すること。
(ii)単眼ビデオフレームにおける空間と時間間の幾何学的構造を利用する教師なしモデル。
理想的には、両方のアプローチで提供される機能を相互補完的に活用したいと考えていますが、既存の手法ではこれらの付加的なメリットを十分に活用できません。
我々は、幾何学的、時間的、セマンティック制約を生かしながら、トレーニングに合成および実世界の画像を使用する、これらの相補的な特徴を組み合わせた自己教師型フレームワークであるS^3$Netを提示する。
我々の新しい統合アーキテクチャは、モノクロビデオを用いた自己監督深度推定における新しい最先端技術を提供する。
私たちはこの自己監督型フレームワークを訓練し、達成するユニークな方法を示します
(i)ドメイン適応とそれを用いた従来の合成教師ありアプローチに対する15〜%以上の改善
(ii)実データから幾何学的制約を生かした従来の自己監督アプローチよりも10〜%以上改善した。
関連論文リスト
- TanDepth: Leveraging Global DEMs for Metric Monocular Depth Estimation in UAVs [5.6168844664788855]
本研究は,推定時間における相対的推定値から計量深度値を求めるための,実践的なオンラインスケール回復手法であるTanDepthを提案する。
本手法は無人航空機(UAV)の用途に応用され,GDEM(Global Digital Elevation Models)のスパース計測をカメラビューに投影することで活用する。
推定深度マップから接地点を選択して、投影された基準点と相関するクラスシミュレーションフィルタへの適応を示す。
論文 参考訳(メタデータ) (2024-09-08T15:54:43Z) - S$^2$Contact: Graph-based Network for 3D Hand-Object Contact Estimation
with Semi-Supervised Learning [70.72037296392642]
モノクロ画像から接触を学習できる新しい半教師付きフレームワークを提案する。
具体的には、大規模データセットにおける視覚的および幾何学的整合性制約を利用して擬似ラベルを生成する。
より正確な再構築を行うために手動インタラクションを規定するコンタクトマップを使用することの利点を示す。
論文 参考訳(メタデータ) (2022-08-01T14:05:23Z) - Multi-Frame Self-Supervised Depth with Transformers [33.00363651105475]
本稿では,コストボリューム生成のためのトランスフォーマーアーキテクチャを提案する。
深度分布型エピポーラサンプリングを用いて、マッチング候補を選択する。
私たちは、一連の自己と横断的なレイヤを通じて予測を洗練します。
論文 参考訳(メタデータ) (2022-04-15T19:04:57Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - Occlusion-Aware Self-Supervised Monocular 6D Object Pose Estimation [88.8963330073454]
自己教師付き学習による新しい単眼6次元ポーズ推定手法を提案する。
ノイズの多い学生のトレーニングと差別化可能なレンダリングの現在の傾向を活用して、モデルをさらに自己監督する。
提案する自己超越法は,合成データに依存する他の方法よりも優れている。
論文 参考訳(メタデータ) (2022-03-19T15:12:06Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - SynDistNet: Self-Supervised Monocular Fisheye Camera Distance Estimation
Synergized with Semantic Segmentation for Autonomous Driving [37.50089104051591]
モノクル深度推定のための最先端の自己教師型学習アプローチは、通常、スケールの曖昧さに悩まされる。
本稿では,魚眼カメラ画像とピンホールカメラ画像の自己教師付き単眼距離推定を改善するための,新しいマルチタスク学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-10T10:52:47Z) - Self-Supervised Joint Learning Framework of Depth Estimation via
Implicit Cues [24.743099160992937]
深度推定のための自己教師型共同学習フレームワークを提案する。
提案するフレームワークは,KITTIおよびMake3Dデータセット上での最先端(SOTA)よりも優れている。
論文 参考訳(メタデータ) (2020-06-17T13:56:59Z) - Don't Forget The Past: Recurrent Depth Estimation from Monocular Video [92.84498980104424]
私たちは3つの異なる種類の深さ推定を共通のフレームワークに組み込んだ。
提案手法は, 時系列の深度マップを生成する。
モノクロビデオにのみ適用したり、異なる種類のスパース深度パターンと組み合わせたりすることができる。
論文 参考訳(メタデータ) (2020-01-08T16:50:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。