論文の概要: Self-Supervised Monocular Depth Estimation: Solving the Dynamic Object
Problem by Semantic Guidance
- arxiv url: http://arxiv.org/abs/2007.06936v2
- Date: Tue, 21 Jul 2020 11:00:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 14:51:01.736926
- Title: Self-Supervised Monocular Depth Estimation: Solving the Dynamic Object
Problem by Semantic Guidance
- Title(参考訳): 自己監督型単眼深度推定:意味的誘導による動的対象問題の解法
- Authors: Marvin Klingner, Jan-Aike Term\"ohlen, Jonas Mikolajczyk, Tim
Fingscheidt
- Abstract要約: 自己監督型単眼深度推定は, 単一カメラ画像から3次元シーン情報を得る強力な方法を示す。
本稿では,移動型動的クラス(DC)オブジェクトを扱うための自己教師付き意味誘導深度推定(SGDepth)手法を提案する。
- 参考スコア(独自算出の注目度): 36.73303869405764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised monocular depth estimation presents a powerful method to
obtain 3D scene information from single camera images, which is trainable on
arbitrary image sequences without requiring depth labels, e.g., from a LiDAR
sensor. In this work we present a new self-supervised semantically-guided depth
estimation (SGDepth) method to deal with moving dynamic-class (DC) objects,
such as moving cars and pedestrians, which violate the static-world assumptions
typically made during training of such models. Specifically, we propose (i)
mutually beneficial cross-domain training of (supervised) semantic segmentation
and self-supervised depth estimation with task-specific network heads, (ii) a
semantic masking scheme providing guidance to prevent moving DC objects from
contaminating the photometric loss, and (iii) a detection method for frames
with non-moving DC objects, from which the depth of DC objects can be learned.
We demonstrate the performance of our method on several benchmarks, in
particular on the Eigen split, where we exceed all baselines without test-time
refinement.
- Abstract(参考訳): 自己教師付き単眼深度推定は、LiDARセンサから深度ラベルを必要とせずに任意の画像列でトレーニング可能な、単一カメラ画像から3Dシーン情報を得る強力な方法を示す。
本研究では,移動車や歩行者などの動的クラス(dc)オブジェクトの移動に対して,このようなモデルのトレーニング中に発生する静的世界仮定に違反する,自己教師付き意味論的奥行き推定(sgdepth)手法を提案する。
具体的には
(i)タスク固有ネットワークヘッドを用いた意味セグメンテーションと自己教師付き深さ推定の相互に有益なクロスドメイン訓練
(ii)直流物体が光度損失を汚染することを防止するためのガイダンスを提供する意味的マスキング方式
三 動きのない直流物体のフレームの検出方法であって、直流物体の深さを学習することができること。
本稿では,いくつかのベンチマーク,特に固有スプリットにおいて,テスト時間の改良を伴わずにすべてのベースラインを超える性能を示す。
関連論文リスト
- Towards Domain Generalization for Multi-view 3D Object Detection in
Bird-Eye-View [11.958753088613637]
まず,MV3D-Detタスクにおける領域ギャップの原因を解析する。
頑健な深度予測を得るために,カメラの内在パラメータから深度推定を分離する手法を提案する。
焦点長の値を変更して複数の擬似ドメインを作成し、敵の訓練損失を発生させ、特徴表現をよりドメインに依存しないものにするよう促す。
論文 参考訳(メタデータ) (2023-03-03T02:59:13Z) - 3D Object Aided Self-Supervised Monocular Depth Estimation [5.579605877061333]
本研究では,モノクロ3次元物体検出による動的物体の動きに対処する新しい手法を提案する。
具体的には、まず画像中の3Dオブジェクトを検出し、検出されたオブジェクトのポーズと動的ピクセル間の対応性を構築する。
このようにして、各ピクセルの深さは有意義な幾何学モデルによって学習することができる。
論文 参考訳(メタデータ) (2022-12-04T08:52:33Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - Attentive and Contrastive Learning for Joint Depth and Motion Field
Estimation [76.58256020932312]
単眼視システムからシーンの3次元構造とともにカメラの動きを推定することは複雑な作業である。
モノクロ映像からの3次元物体運動場推定のための自己教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:45:01Z) - Depth-conditioned Dynamic Message Propagation for Monocular 3D Object
Detection [86.25022248968908]
モノラル3Dオブジェクト検出の問題を解決するために、コンテキストと奥行きを認識する特徴表現を学びます。
KITTIベンチマークデータセットにおける単眼的アプローチにおける最新の結果を示す。
論文 参考訳(メタデータ) (2021-03-30T16:20:24Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - IAFA: Instance-aware Feature Aggregation for 3D Object Detection from a
Single Image [37.83574424518901]
単一の画像からの3Dオブジェクト検出は、自動運転において重要なタスクです。
本稿では,3次元物体検出の精度向上のために有用な情報を集約するインスタンス認識手法を提案する。
論文 参考訳(メタデータ) (2021-03-05T05:47:52Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - Semantics-Driven Unsupervised Learning for Monocular Depth and
Ego-Motion Estimation [33.83396613039467]
ビデオからの単眼深度と自我運動推定のためのセマンティクス駆動型教師なし学習手法を提案する。
近年の教師なし学習法では, 合成ビューと実画像の光度誤差を指導信号として用いている。
論文 参考訳(メタデータ) (2020-06-08T05:55:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。