論文の概要: PlaneDepth: Plane-Based Self-Supervised Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2210.01612v1
- Date: Tue, 4 Oct 2022 13:51:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 14:43:12.444763
- Title: PlaneDepth: Plane-Based Self-Supervised Monocular Depth Estimation
- Title(参考訳): 平面深度:平面に基づく自己監督単眼深度推定
- Authors: Ruoyu Wang, Zehao Yu and Shenghua Gao
- Abstract要約: 我々はRGB画像のみを用いて単眼深度推定ネットワークを訓練し,深層地下深度収集の難しさを克服する。
以前の研究では、MDEネットワークはオブジェクトの垂直像位置のみを使用して、深さと相対的なサイズを推定することが示されている。
本稿では, 小型収穫データを用いたステレオトレーニングと単分子トレーニングにおいて, 初めてこの問題に対処する。
- 参考スコア(独自算出の注目度): 41.517947010531074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised monocular depth estimation refers to training a monocular
depth estimation (MDE) network using only RGB images to overcome the difficulty
of collecting dense ground truth depth. Many previous works addressed this
problem using depth classification or depth regression. However, depth
classification tends to fall into local minima due to the bilinear
interpolation search on the target view. Depth classification overcomes this
problem using pre-divided depth bins, but those depth candidates lead to
discontinuities in the final depth result, and using the same probability for
weighted summation of color and depth is ambiguous. To overcome these
limitations, we use some predefined planes that are parallel to the ground,
allowing us to automatically segment the ground and predict continuous depth
for it. We further model depth as a mixture Laplace distribution, which
provides a more certain objective for optimization. Previous works have shown
that MDE networks only use the vertical image position of objects to estimate
the depth and ignore relative sizes. We address this problem for the first time
in both stereo and monocular training using resize cropping data augmentation.
Based on our analysis of resize cropping, we combine it with our plane
definition and improve our training strategy so that the network could learn
the relationship between depth and both the vertical image position and
relative size of objects. We further combine the self-distillation stage with
post-processing to provide more accurate supervision and save extra time in
post-processing. We conduct extensive experiments to demonstrate the
effectiveness of our analysis and improvements.
- Abstract(参考訳): 自己教師付き単眼深度推定(Self-supervised monocular depth Estimation)とは、RGB画像のみを用いて単眼深度推定(MDE)ネットワークを訓練することである。
過去の多くの研究は、深度分類や深度回帰を用いてこの問題に対処した。
しかし、深度分類は、対象視点での双線型補間探索のため、局所的な最小値に陥りがちである。
深度分類は、あらかじめ分割した深度ビンを用いてこの問題を克服するが、これらの深度候補は最終深度結果の不連続をもたらす。
これらの制限を克服するために、地面と平行ないくつかの事前定義された平面を使い、自動的に地面を分割し、その深さを予測できる。
さらに、より明確な最適化の目的を提供する混合ラプラス分布として深度をモデル化する。
これまでの研究では、MDEネットワークは物体の垂直像位置のみを用いて深度を推定し、相対的な大きさを無視することが示されている。
本稿では,ステレオトレーニングと単眼トレーニングの両方において,再サイズクロッピングデータ拡張を用いてこの問題に初めて対処した。
リサイズ・クロッピングの分析結果から,我々はそれを平面定義と組み合わせ,トレーニング戦略を改善することにより,ネットワークが物体の縦像位置と相対的大きさの関係を学習できるようにした。
さらに、自己蒸留段階と後処理を組み合わせ、より正確な監視と後処理の余分な時間を節約します。
分析と改善の有効性を実証するための広範な実験を行う。
関連論文リスト
- MonoPlane: Exploiting Monocular Geometric Cues for Generalizable 3D Plane Reconstruction [37.481945507799594]
本稿では,MonoPlaneという汎用的な3次元平面検出・再構成フレームワークを提案する。
まず、大規模な事前学習ニューラルネットワークを用いて、1つの画像から深度と表面の正常値を得る。
これらの特異な幾何学的手がかりを近接誘導RANSACフレームワークに組み込んで各平面インスタンスに順次適合させる。
論文 参考訳(メタデータ) (2024-11-02T12:15:29Z) - Plane2Depth: Hierarchical Adaptive Plane Guidance for Monocular Depth Estimation [38.81275292687583]
平面情報を適応的に利用し,階層的なフレームワーク内での深度予測を改善するPlane2Depthを提案する。
提案する平面案内深度発生器 (PGDG) では, 現場の平面をソフトにモデル化し, 画素ごとの平面係数を予測するためのプロトタイプとして, 一連の平面クエリを設計する。
提案するアダプティブプレーンクエリアグリゲーション(APGA)モジュールでは,マルチスケール平面特徴のアグリゲーションを改善するために,新たな機能インタラクションアプローチを導入する。
論文 参考訳(メタデータ) (2024-09-04T07:45:06Z) - AirPlanes: Accurate Plane Estimation via 3D-Consistent Embeddings [26.845588648999417]
本研究では,3次元画像から平面面を推定する問題に対処する。
本稿では,平面へのクラスタリングにおける幾何を補完する多視点一貫した平面埋め込みを予測する手法を提案する。
我々は、ScanNetV2データセットの広範な評価を通じて、我々の新しい手法が既存のアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2024-06-13T09:49:31Z) - Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction [84.94140661523956]
本稿では,2つの垂直面を追加してBEVに付随するトリ・パースペクティブ・ビュー(TPV)表現を提案する。
3次元空間の各点を3次元平面上の投影された特徴をまとめてモデル化する。
実験結果から,本モデルは全ボクセルのセマンティック占有率を効果的に予測できることが示唆された。
論文 参考訳(メタデータ) (2023-02-15T17:58:10Z) - Ground Plane Matters: Picking Up Ground Plane Prior in Monocular 3D
Object Detection [92.75961303269548]
先行する地平面は、モノクル3次元物体検出(M3OD)における非常に情報的な幾何学的手がかりである
本稿では,両問題を一度に解決するGPENetを提案する。
我々のGPENetは、他の手法よりも優れ、最先端のパフォーマンスを実現し、提案手法の有効性と優位性を示すことができる。
論文 参考訳(メタデータ) (2022-11-03T02:21:35Z) - Occupancy Planes for Single-view RGB-D Human Reconstruction [120.5818162569105]
暗黙的な機能を持つシングルビューRGB-Dヒト再構成は、しばしばポイント単位の分類として定式化される。
本稿では,カメラの視野フラストラムをスライスする平面上での占有率予測として,一視点のRGB-D人間の再構成を定式化できる占有面(OPlanes)表現を提案する。
論文 参考訳(メタデータ) (2022-08-04T17:59:56Z) - Pose Estimation for Vehicle-mounted Cameras via Horizontal and Vertical
Planes [37.653076607939745]
そこで本研究では,移動車に搭載されたキャリブレーションカメラのエゴモーションを,単一のアフィン対応から推定する2つの新しい解法を提案する。
どちらの手法も行列係数が小さい線形系で解かれるため、非常に効率的である。
それらは、合成データと、公開されている現実世界のデータセットでテストされる。
論文 参考訳(メタデータ) (2020-08-13T08:01:48Z) - Plan2Vec: Unsupervised Representation Learning by Latent Plans [106.37274654231659]
Plan2vecは、強化学習にインスパイアされた教師なしの表現学習手法である。
Plan2vecは、近距離を用いて画像データセット上に重み付きグラフを構築し、その局所距離を、計画された経路上の経路積分を蒸留することによって、大域的な埋め込みに外挿する。
1つのシミュレーションと2つの実世界の画像データセットに対する Plan2vec の有効性を実証する。
論文 参考訳(メタデータ) (2020-05-07T17:52:23Z) - From Planes to Corners: Multi-Purpose Primitive Detection in Unorganized
3D Point Clouds [59.98665358527686]
直交平面の分割自由結合推定法を提案する。
このような統合されたシーン探索は、セマンティックプレーンの検出や局所的およびグローバルなスキャンアライメントといった、多目的のアプリケーションを可能にする。
本実験は,壁面検出から6次元トラッキングに至るまで,様々なシナリオにおいて,我々のアプローチの有効性を実証するものである。
論文 参考訳(メタデータ) (2020-01-21T06:51:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。