論文の概要: PlaneDepth: Plane-Based Self-Supervised Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2210.01612v1
- Date: Tue, 4 Oct 2022 13:51:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 14:43:12.444763
- Title: PlaneDepth: Plane-Based Self-Supervised Monocular Depth Estimation
- Title(参考訳): 平面深度:平面に基づく自己監督単眼深度推定
- Authors: Ruoyu Wang, Zehao Yu and Shenghua Gao
- Abstract要約: 我々はRGB画像のみを用いて単眼深度推定ネットワークを訓練し,深層地下深度収集の難しさを克服する。
以前の研究では、MDEネットワークはオブジェクトの垂直像位置のみを使用して、深さと相対的なサイズを推定することが示されている。
本稿では, 小型収穫データを用いたステレオトレーニングと単分子トレーニングにおいて, 初めてこの問題に対処する。
- 参考スコア(独自算出の注目度): 41.517947010531074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised monocular depth estimation refers to training a monocular
depth estimation (MDE) network using only RGB images to overcome the difficulty
of collecting dense ground truth depth. Many previous works addressed this
problem using depth classification or depth regression. However, depth
classification tends to fall into local minima due to the bilinear
interpolation search on the target view. Depth classification overcomes this
problem using pre-divided depth bins, but those depth candidates lead to
discontinuities in the final depth result, and using the same probability for
weighted summation of color and depth is ambiguous. To overcome these
limitations, we use some predefined planes that are parallel to the ground,
allowing us to automatically segment the ground and predict continuous depth
for it. We further model depth as a mixture Laplace distribution, which
provides a more certain objective for optimization. Previous works have shown
that MDE networks only use the vertical image position of objects to estimate
the depth and ignore relative sizes. We address this problem for the first time
in both stereo and monocular training using resize cropping data augmentation.
Based on our analysis of resize cropping, we combine it with our plane
definition and improve our training strategy so that the network could learn
the relationship between depth and both the vertical image position and
relative size of objects. We further combine the self-distillation stage with
post-processing to provide more accurate supervision and save extra time in
post-processing. We conduct extensive experiments to demonstrate the
effectiveness of our analysis and improvements.
- Abstract(参考訳): 自己教師付き単眼深度推定(Self-supervised monocular depth Estimation)とは、RGB画像のみを用いて単眼深度推定(MDE)ネットワークを訓練することである。
過去の多くの研究は、深度分類や深度回帰を用いてこの問題に対処した。
しかし、深度分類は、対象視点での双線型補間探索のため、局所的な最小値に陥りがちである。
深度分類は、あらかじめ分割した深度ビンを用いてこの問題を克服するが、これらの深度候補は最終深度結果の不連続をもたらす。
これらの制限を克服するために、地面と平行ないくつかの事前定義された平面を使い、自動的に地面を分割し、その深さを予測できる。
さらに、より明確な最適化の目的を提供する混合ラプラス分布として深度をモデル化する。
これまでの研究では、MDEネットワークは物体の垂直像位置のみを用いて深度を推定し、相対的な大きさを無視することが示されている。
本稿では,ステレオトレーニングと単眼トレーニングの両方において,再サイズクロッピングデータ拡張を用いてこの問題に初めて対処した。
リサイズ・クロッピングの分析結果から,我々はそれを平面定義と組み合わせ,トレーニング戦略を改善することにより,ネットワークが物体の縦像位置と相対的大きさの関係を学習できるようにした。
さらに、自己蒸留段階と後処理を組み合わせ、より正確な監視と後処理の余分な時間を節約します。
分析と改善の有効性を実証するための広範な実験を行う。
関連論文リスト
- Disentangling Orthogonal Planes for Indoor Panoramic Room Layout
Estimation with Cross-Scale Distortion Awareness [38.096482841789275]
複素シーンから平面を前分割することで1次元表現を解き放つことを提案する。
床の境界と天井の境界の対称性を考えると,ソフトフリップ融合戦略も設計する。
4つの人気のあるベンチマークの実験は、既存のSoTAソリューションよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-03-02T05:10:23Z) - Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction [84.94140661523956]
本稿では,2つの垂直面を追加してBEVに付随するトリ・パースペクティブ・ビュー(TPV)表現を提案する。
3次元空間の各点を3次元平面上の投影された特徴をまとめてモデル化する。
実験結果から,本モデルは全ボクセルのセマンティック占有率を効果的に予測できることが示唆された。
論文 参考訳(メタデータ) (2023-02-15T17:58:10Z) - Ground Plane Matters: Picking Up Ground Plane Prior in Monocular 3D
Object Detection [92.75961303269548]
先行する地平面は、モノクル3次元物体検出(M3OD)における非常に情報的な幾何学的手がかりである
本稿では,両問題を一度に解決するGPENetを提案する。
我々のGPENetは、他の手法よりも優れ、最先端のパフォーマンスを実現し、提案手法の有効性と優位性を示すことができる。
論文 参考訳(メタデータ) (2022-11-03T02:21:35Z) - Occupancy Planes for Single-view RGB-D Human Reconstruction [120.5818162569105]
暗黙的な機能を持つシングルビューRGB-Dヒト再構成は、しばしばポイント単位の分類として定式化される。
本稿では,カメラの視野フラストラムをスライスする平面上での占有率予測として,一視点のRGB-D人間の再構成を定式化できる占有面(OPlanes)表現を提案する。
論文 参考訳(メタデータ) (2022-08-04T17:59:56Z) - Indoor Panorama Planar 3D Reconstruction via Divide and Conquer [36.466149592254965]
室内パノラマは典型的には人造構造で、重力に平行または垂直である。
我々はこの現象を利用して、(H)水平面と(V)慣性面を持つ360度画像のシーンを近似する。
我々は、既存の360度深度データセットを地平線H&V平面で拡張することにより、屋内パノラマ平面再構成のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2021-06-27T07:58:29Z) - Pose Estimation for Vehicle-mounted Cameras via Horizontal and Vertical
Planes [37.653076607939745]
そこで本研究では,移動車に搭載されたキャリブレーションカメラのエゴモーションを,単一のアフィン対応から推定する2つの新しい解法を提案する。
どちらの手法も行列係数が小さい線形系で解かれるため、非常に効率的である。
それらは、合成データと、公開されている現実世界のデータセットでテストされる。
論文 参考訳(メタデータ) (2020-08-13T08:01:48Z) - Plan2Vec: Unsupervised Representation Learning by Latent Plans [106.37274654231659]
Plan2vecは、強化学習にインスパイアされた教師なしの表現学習手法である。
Plan2vecは、近距離を用いて画像データセット上に重み付きグラフを構築し、その局所距離を、計画された経路上の経路積分を蒸留することによって、大域的な埋め込みに外挿する。
1つのシミュレーションと2つの実世界の画像データセットに対する Plan2vec の有効性を実証する。
論文 参考訳(メタデータ) (2020-05-07T17:52:23Z) - From Planes to Corners: Multi-Purpose Primitive Detection in Unorganized
3D Point Clouds [59.98665358527686]
直交平面の分割自由結合推定法を提案する。
このような統合されたシーン探索は、セマンティックプレーンの検出や局所的およびグローバルなスキャンアライメントといった、多目的のアプリケーションを可能にする。
本実験は,壁面検出から6次元トラッキングに至るまで,様々なシナリオにおいて,我々のアプローチの有効性を実証するものである。
論文 参考訳(メタデータ) (2020-01-21T06:51:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。