論文の概要: MonoPP: Metric-Scaled Self-Supervised Monocular Depth Estimation by Planar-Parallax Geometry in Automotive Applications
- arxiv url: http://arxiv.org/abs/2411.19717v1
- Date: Fri, 29 Nov 2024 14:06:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:22:50.549938
- Title: MonoPP: Metric-Scaled Self-Supervised Monocular Depth Estimation by Planar-Parallax Geometry in Automotive Applications
- Title(参考訳): MonoPP: 平面パララックス幾何学による大規模自己監督単眼深度推定の自動車への応用
- Authors: Gasser Elazab, Torben Gräber, Michael Unterreiner, Olaf Hellwich,
- Abstract要約: 本稿では,モノクロ映像データとカメラの装着位置のみを必要とする,自己監督型メカニカルスケールMDEモデルを提案する。
提案手法は, ドライビングベンチマークKITTIを用いて, 計量スケール深度予測のための最先端結果を得た。
特に、挑戦的なCityscapesデータセットのために、自己教師付きメトリックスケールの深度予測を作成するための最初の方法の1つである。
- 参考スコア(独自算出の注目度): 2.5249064981269287
- License:
- Abstract: Self-supervised monocular depth estimation (MDE) has gained popularity for obtaining depth predictions directly from videos. However, these methods often produce scale invariant results, unless additional training signals are provided. Addressing this challenge, we introduce a novel self-supervised metric-scaled MDE model that requires only monocular video data and the camera's mounting position, both of which are readily available in modern vehicles. Our approach leverages planar-parallax geometry to reconstruct scene structure. The full pipeline consists of three main networks, a multi-frame network, a singleframe network, and a pose network. The multi-frame network processes sequential frames to estimate the structure of the static scene using planar-parallax geometry and the camera mounting position. Based on this reconstruction, it acts as a teacher, distilling knowledge such as scale information, masked drivable area, metric-scale depth for the static scene, and dynamic object mask to the singleframe network. It also aids the pose network in predicting a metric-scaled relative pose between two subsequent images. Our method achieved state-of-the-art results for the driving benchmark KITTI for metric-scaled depth prediction. Notably, it is one of the first methods to produce self-supervised metric-scaled depth prediction for the challenging Cityscapes dataset, demonstrating its effectiveness and versatility.
- Abstract(参考訳): 自己教師付き単眼深度推定(MDE)はビデオから直接深度予測を得ることで人気を得ている。
しかし、これらの手法は、追加の訓練信号が提供されない限り、しばしばスケール不変の結果を生成する。
この課題に対処するために、モノクロ映像データとカメラの装着位置のみを必要とする新しい自己監督型距離スケールMDEモデルを導入し、どちらも現代の車両で容易に利用可能である。
提案手法は平面パララックス形状を利用してシーン構造を再構成する。
パイプライン全体は3つのメインネットワーク、マルチフレームネットワーク、シングルフレームネットワーク、ポーズネットワークで構成されている。
多フレームネットワークはシーケンシャルフレームを処理し、平面パララックス幾何とカメラ装着位置を用いて静的シーンの構造を推定する。
この再構築に基づき、教師として機能し、スケール情報、マスク乾燥可能なエリア、静的シーンのメートルスケール深さ、シングルフレームネットワークへの動的オブジェクトマスクなどの知識を蒸留する。
また、2つの画像間の距離スケールの相対的なポーズを予測するのにも役立ちます。
提案手法は, ドライビングベンチマークKITTIを用いて, 計量スケール深度予測のための最先端結果を得た。
特に、Cityscapesデータセットに挑戦する上で、自己教師付きメトリックスケールの深度予測を作成した最初の方法の1つであり、その有効性と汎用性を示している。
関連論文リスト
- MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - DoubleTake: Geometry Guided Depth Estimation [17.464549832122714]
RGB画像の列から深度を推定することは、基本的なコンピュータビジョンタスクである。
本稿では,現在のカメラ位置から深度マップとして描画された,ボリューム特徴と先行幾何学のヒントを組み合わせた再構成手法を提案する。
本手法は, オフライン・インクリメンタルな評価シナリオにおいて, 対話的な速度, 最先端の深度推定, および3次元シーンで動作可能であることを示す。
論文 参考訳(メタデータ) (2024-06-26T14:29:05Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - FSNet: Redesign Self-Supervised MonoDepth for Full-Scale Depth
Prediction for Autonomous Driving [18.02943016671203]
本研究では,自律走行シーンの高精度なスケール認識深度予測のための包括的自己教師型フレームワークを提案する。
特に,FSNetと呼ばれるフルスケール深度予測ネットワークを導入する。
FSNetを使えば、ロボットや車両は1台のカメラしか持たず、訓練用画像フレームやカメラポーズのシーケンスを収集し、余分なラベル付け作業や3Dデータなしで環境の正確な3D深度を推測することができる。
論文 参考訳(メタデータ) (2023-04-21T03:17:04Z) - Instance-aware multi-object self-supervision for monocular depth
prediction [0.0]
本稿では,エンド・ツー・エンド・エンド・フォトメトリック・ロスをトレーニングした自己教師付き単眼画像から深度予測フレームワークを提案する。
セルフスーパービジョンは、オブジェクトインスタンスを含む深度とシーンの動きを使用して、映像をビデオシーケンスにわたってワープすることで実行される。
論文 参考訳(メタデータ) (2022-03-02T00:59:25Z) - Towards 3D Scene Reconstruction from Locally Scale-Aligned Monocular
Video Depth [90.33296913575818]
映像深度推定や映像からの3次元シーン再構成のようなビデオベースのシナリオでは、フレームごとの予測における未知のスケールとシフトが深度の不整合を引き起こす可能性がある。
局所重み付き線形回帰法を提案する。
提案手法は,複数のゼロショットベンチマークにおいて,既存の最先端手法の性能を50%向上させることができる。
論文 参考訳(メタデータ) (2022-02-03T08:52:54Z) - TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view
Stereo [55.30992853477754]
本稿では,リアルタイムな単分子追跡と高密度フレームワークであるTANDEMを紹介する。
ポーズ推定のために、TANDEMはアライメントのスライディングウィンドウに基づいて光度バンドル調整を行う。
TANDEMは最先端のリアルタイム3D再構成性能を示す。
論文 参考訳(メタデータ) (2021-11-14T19:01:02Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Monocular 3D Detection with Geometric Constraints Embedding and
Semi-supervised Training [3.8073142980733]
我々は,KM3D-Netと呼ばれる,RGB画像のみを用いたモノクル3Dオブジェクト検出のための新しいフレームワークを提案する。
我々は、対象のキーポイント、次元、方向を予測するための完全な畳み込みモデルを設計し、これらの推定を視点幾何学的制約と組み合わせて位置属性を計算する。
論文 参考訳(メタデータ) (2020-09-02T00:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。