論文の概要: Self-supervised Monocular Depth Estimation on Water Scenes via Specular Reflection Prior
- arxiv url: http://arxiv.org/abs/2404.07176v1
- Date: Wed, 10 Apr 2024 17:25:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 13:42:08.041448
- Title: Self-supervised Monocular Depth Estimation on Water Scenes via Specular Reflection Prior
- Title(参考訳): スペクトル反射による水シーンの自己監督型単分子深度推定
- Authors: Zhengyang Lu, Ying Chen,
- Abstract要約: 本論文は,フレーム内事前情報を用いた深層学習深度推定のための最初のセルフスーパービジョンを提案する。
第1段階では、反射成分と全体像とを分離する分水ネットワークが実行される。
SmoothL1と新しい光度適応型SSIMを組み合わせた光度再投影誤差を定式化し、ポーズと深さの推定を最適化する。
- 参考スコア(独自算出の注目度): 3.2120448116996103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular depth estimation from a single image is an ill-posed problem for computer vision due to insufficient reliable cues as the prior knowledge. Besides the inter-frame supervision, namely stereo and adjacent frames, extensive prior information is available in the same frame. Reflections from specular surfaces, informative intra-frame priors, enable us to reformulate the ill-posed depth estimation task as a multi-view synthesis. This paper proposes the first self-supervision for deep-learning depth estimation on water scenes via intra-frame priors, known as reflection supervision and geometrical constraints. In the first stage, a water segmentation network is performed to separate the reflection components from the entire image. Next, we construct a self-supervised framework to predict the target appearance from reflections, perceived as other perspectives. The photometric re-projection error, incorporating SmoothL1 and a novel photometric adaptive SSIM, is formulated to optimize pose and depth estimation by aligning the transformed virtual depths and source ones. As a supplement, the water surface is determined from real and virtual camera positions, which complement the depth of the water area. Furthermore, to alleviate these laborious ground truth annotations, we introduce a large-scale water reflection scene (WRS) dataset rendered from Unreal Engine 4. Extensive experiments on the WRS dataset prove the feasibility of the proposed method compared to state-of-the-art depth estimation techniques.
- Abstract(参考訳): 単一画像からの単眼深度推定は、従来の知識として信頼性の低いキューが不足しているため、コンピュータビジョンにとって不適切な問題である。
フレーム間の監督、すなわちステレオフレームと隣接フレームに加えて、広範囲の事前情報が同じフレームで利用可能である。
鏡面からの反射, 情報的フレーム内先行の反射は, 多視点合成として不測の深度推定タスクを再構成することを可能にする。
本稿では,反射監督法と幾何学的制約法として知られるフレーム内先行手法を用いて,水面の深層深度推定のための最初のセルフスーパービジョンを提案する。
第1段階では、反射成分と全体像とを分離する分水ネットワークが実行される。
次に、他の視点として認識される反射からターゲットの外観を予測するための自己教師型フレームワークを構築する。
SmoothL1と新しい光度適応SSIMを組み込んだ光度再投影誤差を定式化し、変換された仮想深度とソースを整列させてポーズと深さの推定を最適化する。
補足として、水面は、水深を補完する実物および仮想カメラ位置から決定される。
さらに,これらの難易度の高い真実アノテーションを緩和するために,Unreal Engine 4から作成した大規模水反射シーン(WRS)データセットを導入する。
WRSデータセットの大規模な実験は、最先端深度推定手法と比較して提案手法の有効性を証明している。
関連論文リスト
- Single-Shot Metric Depth from Focused Plenoptic Cameras [18.412662939667676]
視覚センサによる距離推定は、ロボットが環境を知覚し、ナビゲートし、操作するために不可欠である。
光電界イメージングは、単一のデバイスを通してユニークなレンズ構成を使用することで、メートル法深度を推定するための有望なソリューションを提供する。
我々の研究は、高密度なメートル法深度のための集束型レンズカメラの可能性を探究する。
論文 参考訳(メタデータ) (2024-12-03T11:21:17Z) - ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation [62.600382533322325]
本研究では,新しい単分子深度推定法であるScaleDepthを提案する。
提案手法は,距離深度をシーンスケールと相対深度に分解し,セマンティック・アウェア・スケール予測モジュールを用いて予測する。
本手法は,室内と屋外の両方のシーンを統一した枠組みで距離推定する。
論文 参考訳(メタデータ) (2024-07-11T05:11:56Z) - Joint Self-supervised Depth and Optical Flow Estimation towards Dynamic
Objects [3.794605440322862]
本研究では,フレーム間監督深度と光フロー推定の枠組みを構築した。
動作のセグメンテーションでは、予備推定光フローマップを広い接続領域で適応的に分割する。
提案手法は,KITTI深度データセット上で既存の深度推定器よりも優れた精度を示す。
論文 参考訳(メタデータ) (2023-09-07T04:00:52Z) - DeepRM: Deep Recurrent Matching for 6D Pose Refinement [77.34726150561087]
DeepRMは、6Dポーズ改善のための新しいリカレントネットワークアーキテクチャである。
アーキテクチャにはLSTMユニットが組み込まれ、各改善ステップを通じて情報を伝達する。
DeepRMは、2つの広く受け入れられている課題データセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-05-28T16:18:08Z) - Next-Best-View Prediction for Active Stereo Cameras and Highly
Reflective Objects [12.21992378133376]
反射物体の深度データを完成させるためのカメラ視点を戦略的に選択する次世代ビューフレームワークを提案する。
我々は既存のデータから現在のポーズ予測を得るためにRGBベースのポーズ推定器を用いる。
我々の能動深度取得法は,2つの強いベースラインを上回り,深度完成度とオブジェクトポーズ推定性能を両立させる。
論文 参考訳(メタデータ) (2022-02-27T01:48:02Z) - Scale-aware direct monocular odometry [4.111899441919165]
本稿では,深部ニューラルネットワークからの深度予測に基づく直接単分子オードメトリーの枠組みを提案する。
提案手法は,従来の単分子SLAMよりも5倍から9倍精度が高く,ステレオシステムに近い精度である。
論文 参考訳(メタデータ) (2021-09-21T10:30:15Z) - Progressive Depth Learning for Single Image Dehazing [56.71963910162241]
既存の脱湿法は、しばしば深度を無視し、より重いヘイズが視界を乱す遠くの地域で失敗する。
画像深度と伝送マップを反復的に推定するディープエンドツーエンドモデルを提案する。
私たちのアプローチは、画像深度と伝送マップの内部関係を明示的にモデリングすることから利益を得ます。
論文 参考訳(メタデータ) (2021-02-21T05:24:18Z) - Robust Consistent Video Depth Estimation [65.53308117778361]
本稿では,単眼映像からカメラのカメラポーズと密集した深度マップを推定するアルゴリズムを提案する。
本手法は,(1)低周波大規模アライメントのためのフレキシブルな変形-スプラインと(2)細部奥行き詳細の高周波アライメントのための幾何認識深度フィルタリングとを組み合わせた手法である。
従来の手法とは対照的に, カメラのポーズを入力として必要とせず, かなりの音量, 揺動, 動きのぼやき, 転がりシャッター変形を含む携帯のハンドヘルドキャプチャに頑健な再構成を実現する。
論文 参考訳(メタデータ) (2020-12-10T18:59:48Z) - Deep 3D Capture: Geometry and Reflectance from Sparse Multi-View Images [59.906948203578544]
本稿では,任意の物体の高品質な形状と複雑な空間変化を持つBRDFを再構成する学習に基づく新しい手法を提案する。
まず、深層多視点ステレオネットワークを用いて、ビューごとの深度マップを推定する。
これらの深度マップは、異なるビューを粗く整列するために使用される。
本稿では,新しい多視点反射率推定ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-03-27T21:28:54Z) - D3VO: Deep Depth, Deep Pose and Deep Uncertainty for Monocular Visual
Odometry [57.5549733585324]
D3VOは、深度、ポーズ、不確実性推定という3つのレベルでディープネットワークを利用する、単眼の視覚計測のための新しいフレームワークである。
まず,ステレオビデオを用いた自己監督型単眼深度推定ネットワークを提案する。
入力画像上の画素の光度不確かさをモデル化し、深度推定精度を向上させる。
論文 参考訳(メタデータ) (2020-03-02T17:47:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。