論文の概要: Unsupervised Monocular Depth Perception: Focusing on Moving Objects
- arxiv url: http://arxiv.org/abs/2108.13062v1
- Date: Mon, 30 Aug 2021 08:45:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 14:26:04.724675
- Title: Unsupervised Monocular Depth Perception: Focusing on Moving Objects
- Title(参考訳): 教師なし単眼深度知覚:移動物体に着目して
- Authors: Hualie Jiang, Laiyan Ding, Zhenglong Sun, Rui Huang
- Abstract要約: 本稿では,光度誤差を意図的に操作することで,効率よく困難に対処できることを示す。
まず、光学誤差マップにおいて、隠蔽または動的画素を統計的外れ値として考慮した外れ値マスキング手法を提案する。
外部マスキングにより、ネットワークはカメラと反対方向に移動する物体の深さをより正確に学習する。
- 参考スコア(独自算出の注目度): 5.489557739480878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a flexible passive 3D sensing means, unsupervised learning of depth from
monocular videos is becoming an important research topic. It utilizes the
photometric errors between the target view and the synthesized views from its
adjacent source views as the loss instead of the difference from the ground
truth. Occlusion and scene dynamics in real-world scenes still adversely affect
the learning, despite significant progress made recently. In this paper, we
show that deliberately manipulating photometric errors can efficiently deal
with these difficulties better. We first propose an outlier masking technique
that considers the occluded or dynamic pixels as statistical outliers in the
photometric error map. With the outlier masking, the network learns the depth
of objects that move in the opposite direction to the camera more accurately.
To the best of our knowledge, such cases have not been seriously considered in
the previous works, even though they pose a high risk in applications like
autonomous driving. We also propose an efficient weighted multi-scale scheme to
reduce the artifacts in the predicted depth maps. Extensive experiments on the
KITTI dataset and additional experiments on the Cityscapes dataset have
verified the proposed approach's effectiveness on depth or ego-motion
estimation. Furthermore, for the first time, we evaluate the predicted depth on
the regions of dynamic objects and static background separately for both
supervised and unsupervised methods. The evaluation further verifies the
effectiveness of our proposed technical approach and provides some interesting
observations that might inspire future research in this direction.
- Abstract(参考訳): フレキシブルな3dセンシング手段として,単眼映像からの奥行きの教師なし学習が重要な研究課題となっている。
対象のビューと隣接するソースビューからの合成ビューの間の測光誤差を、基底真理との違いではなく損失として利用する。
現実世界のシーンにおける排除とシーンのダイナミクスは、最近の大きな進歩にもかかわらず、依然として学習に悪影響を及ぼす。
本稿では,光度誤差を意図的に操作することで,これらの問題に対処できることを示す。
まず,オクルードまたはダイナミックピクセルを光度誤差マップの統計的外れ値として考慮した外れ値マスキング手法を提案する。
外れたマスキングによって、ネットワークはカメラの反対方向に移動する物体の深さをより正確に学習する。
我々の知る限りでは、このようなケースは、自動運転のようなアプリケーションに高いリスクをもたらすにもかかわらず、以前の研究では真剣に検討されていない。
また,予測深度マップのアーティファクトを削減するために,効率的な重み付きマルチスケールスキームを提案する。
KITTIデータセットの大規模な実験とCityscapesデータセットのさらなる実験により、提案手法が深度やエゴモーション推定に与える影響が検証された。
さらに,教師なしと教師なしの両方の手法において,動的オブジェクトの領域と静的背景の予測深度を分離して評価した。
この評価は,提案手法の有効性をさらに検証し,今後の研究に刺激を与えるであろう興味深い観察結果を提供する。
関連論文リスト
- SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - On the Sins of Image Synthesis Loss for Self-supervised Depth Estimation [60.780823530087446]
画像合成の改善は深度推定の改善を必要としないことを示す。
この発散現象は、データから生じるアレラトリックな不確実性に起因している。
この観察された発散は、以前に報告されたり、深く研究されたりしていない。
論文 参考訳(メタデータ) (2021-09-13T17:57:24Z) - Self-supervised Learning of Occlusion Aware Flow Guided 3D Geometry
Perception with Adaptive Cross Weighted Loss from Monocular Videos [5.481942307939029]
自己教師型深層学習に基づく3次元シーン理解手法は,高密度にラベル付けされた地下構造を取得することの難しさを克服することができる。
本稿では,学習可能なオクルージョン認識型光学流ガイドによる自己監督深度とカメラポーズ推定について検討する。
提案手法は,KITTI,Make3D,Cityscapesの各データセットに対して,複数のタスクで有望な結果を示す。
論文 参考訳(メタデータ) (2021-08-09T09:21:24Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - Geometry Uncertainty Projection Network for Monocular 3D Object
Detection [138.24798140338095]
本稿では,予測および学習段階の誤り増幅問題に対処するために,幾何不確実性予測ネットワーク(GUP Net)を提案する。
具体的には, GUPモジュールを提案し, 推定深さの幾何誘導不確かさを求める。
トレーニング段階では,エラー増幅による不安定性を低減するための階層型タスク学習戦略を提案する。
論文 参考訳(メタデータ) (2021-07-29T06:59:07Z) - SAFENet: Self-Supervised Monocular Depth Estimation with Semantic-Aware
Feature Extraction [27.750031877854717]
本稿では,セマンティック情報を活用して光度損失の限界を克服するSAFENetを提案する。
私たちのキーとなるアイデアは、意味的知識と幾何学的知識を統合するセマンティック・アウェア・ディープ機能を活用することです。
KITTIデータセットの実験では、我々の手法が最先端の手法と競合するか、さらに優れています。
論文 参考訳(メタデータ) (2020-10-06T17:22:25Z) - Targeted Adversarial Perturbations for Monocular Depth Prediction [74.61708733460927]
対向摂動が単眼深度予測の課題に及ぼす影響について検討した。
具体的には、シーンの知覚的幾何学を選択的に変化させる、小さくて知覚できない付加的摂動の能力を探求する。
このような摂動は、カメラから予測される距離を世界規模で再スケールするだけでなく、異なるターゲットシーンにマッチするように予測を変更することが可能である。
論文 参考訳(メタデータ) (2020-06-12T19:29:43Z) - DiPE: Deeper into Photometric Errors for Unsupervised Learning of Depth
and Ego-motion from Monocular Videos [9.255509741319583]
本稿では,光度誤差を慎重に操作することで,これらの問題に対処できることを示す。
主な改善は、測光誤差マップ内の見えないまたは静止しないピクセルを隠蔽する統計技術によって達成される。
また,予測深度マップのアーティファクトを削減するために,効率的な重み付きマルチスケールスキームを提案する。
論文 参考訳(メタデータ) (2020-03-03T07:05:15Z) - Single Image Depth Estimation Trained via Depth from Defocus Cues [105.67073923825842]
単一のRGB画像から深度を推定することはコンピュータビジョンの基本的な課題である。
この作業では、異なる視点ではなく、フォーカスキューからの奥行きに依存しています。
我々は,KITTIとMake3Dデータセットの教師あり手法と同等な結果を提示し,教師なし学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-01-14T20:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。