論文の概要: GenDepth: Generalizing Monocular Depth Estimation for Arbitrary Camera
Parameters via Ground Plane Embedding
- arxiv url: http://arxiv.org/abs/2312.06021v1
- Date: Sun, 10 Dec 2023 22:28:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 17:28:12.190944
- Title: GenDepth: Generalizing Monocular Depth Estimation for Arbitrary Camera
Parameters via Ground Plane Embedding
- Title(参考訳): GenDepth: 平面埋め込みによる任意カメラパラメータの単眼深度推定の一般化
- Authors: Karlo Koledi\'c, Luka Petrovi\'c, Ivan Petrovi\'c, Ivan Markovi\'c
- Abstract要約: GenDepthは任意の車載カメラの設定に対してメートル法深度推定を行うことができる新しいモデルである。
地平面深度としてのカメラパラメータの新たな埋め込みを提案し,これらの埋め込みを対角領域アライメントと統合するアーキテクチャを提案する。
我々はGenDepthをいくつかの自律走行データセットで検証し、異なる車載カメラシステムに対する最先端の一般化能力を実証した。
- 参考スコア(独自算出の注目度): 8.289857214449372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning-based monocular depth estimation leverages geometric priors present
in the training data to enable metric depth perception from a single image, a
traditionally ill-posed problem. However, these priors are often specific to a
particular domain, leading to limited generalization performance on unseen
data. Apart from the well studied environmental domain gap, monocular depth
estimation is also sensitive to the domain gap induced by varying camera
parameters, an aspect that is often overlooked in current state-of-the-art
approaches. This issue is particularly evident in autonomous driving scenarios,
where datasets are typically collected with a single vehicle-camera setup,
leading to a bias in the training data due to a fixed perspective geometry. In
this paper, we challenge this trend and introduce GenDepth, a novel model
capable of performing metric depth estimation for arbitrary vehicle-camera
setups. To address the lack of data with sufficiently diverse camera
parameters, we first create a bespoke synthetic dataset collected with
different vehicle-camera systems. Then, we design GenDepth to simultaneously
optimize two objectives: (i) equivariance to the camera parameter variations on
synthetic data, (ii) transferring the learned equivariance to real-world
environmental features using a single real-world dataset with a fixed
vehicle-camera system. To achieve this, we propose a novel embedding of camera
parameters as the ground plane depth and present a novel architecture that
integrates these embeddings with adversarial domain alignment. We validate
GenDepth on several autonomous driving datasets, demonstrating its
state-of-the-art generalization capability for different vehicle-camera
systems.
- Abstract(参考訳): 学習に基づく単眼深度推定は、トレーニングデータに存在する幾何学的先行情報を利用して、1つの画像からメートル法的深度知覚を可能にする。
しかし、これらの先入観は特定の領域に特有であり、見当たらないデータに対する限定的な一般化性能をもたらす。
十分に研究された環境領域間隙とは別に、単眼深度推定は様々なカメラパラメータによって引き起こされる領域間隙にも敏感である。
この問題は、データセットが単一車両とカメラのセットアップで一般的に収集される自律運転シナリオにおいて特に顕著であり、固定された視点幾何学によるトレーニングデータのバイアスにつながる。
本稿では,この傾向に挑戦し,任意の車載カメラ装置の計量深度推定が可能な新しいモデルであるGenDepthを紹介する。
十分な多様なカメラパラメータによるデータの欠如に対処するため、まず異なる車両カメラシステムで収集された合成データセットを作成する。
そして、2つの目的を同時に最適化するGenDepthを設計する。
(i)合成データにおけるカメラパラメータ変動の等価性
2) 固定車載カメラシステムを用いた1つの実世界のデータセットを用いて, 学習した同値を実世界の環境特徴に伝達する。
そこで本研究では,地平面深度にカメラパラメータを埋め込む新しい手法を提案し,これらの埋め込みを対向領域アライメントと統合するアーキテクチャを提案する。
我々は、複数の自動運転データセットについてgendepthを検証し、異なる車載カメラシステムに対する最先端の一般化能力を示す。
関連論文リスト
- Homography Estimation in Complex Topological Scenes [6.023710971800605]
監視ビデオや画像は、交通分析から犯罪検出まで、幅広い用途に使用されている。
外部カメラキャリブレーションデータは、ほとんどの分析アプリケーションにとって重要である。
本稿では,任意のカメラ設定に関する事前知識を必要としない辞書ベースのアプローチを活用した自動カメラ校正プロセスを提案する。
論文 参考訳(メタデータ) (2023-08-02T11:31:43Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - Multi-Camera Sensor Fusion for Visual Odometry using Deep Uncertainty
Estimation [34.8860186009308]
複数の車載カメラからの姿勢推定と不確実性推定の両方を用いて車両の動きを推定する深層センサ融合フレームワークを提案する。
我々は、利用可能な大規模自動運転車データセットnuScenesに対する我々のアプローチを評価した。
論文 参考訳(メタデータ) (2021-12-23T19:44:45Z) - Self-Supervised Camera Self-Calibration from Video [34.35533943247917]
汎用カメラモデルの効率的なファミリーを用いてシーケンスごとのキャリブレーションパラメータを回帰する学習アルゴリズムを提案する。
提案手法は,サブピクセル再投射誤差による自己校正を行い,他の学習手法よりも優れる。
論文 参考訳(メタデータ) (2021-12-06T19:42:05Z) - Camera Calibration through Camera Projection Loss [4.36572039512405]
画像対を用いた固有(焦点長と主点オフセット)パラメータの予測手法を提案する。
従来の手法とは違って,マルチタスク学習フレームワークにおいて,カメラモデル方程式をニューラルネットワークとして組み込んだ新しい表現を提案する。
提案手法は,10パラメータ中7パラメータに対して,ディープラーニングと従来手法の両方に対して,優れた性能を実現する。
論文 参考訳(メタデータ) (2021-10-07T14:03:10Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Wide-angle Image Rectification: A Survey [86.36118799330802]
広角画像は、基礎となるピンホールカメラモデルに反する歪みを含む。
これらの歪みを補正することを目的とした画像修正は、これらの問題を解決することができる。
本稿では、異なるアプローチで使用されるカメラモデルについて、詳細な説明と議論を行う。
次に,従来の幾何学に基づく画像修正手法と深層学習法の両方について検討する。
論文 参考訳(メタデータ) (2020-10-30T17:28:40Z) - Neural Ray Surfaces for Self-Supervised Learning of Depth and Ego-motion [51.19260542887099]
カメラモデルの事前知識を必要とせずに、自己超越を用いて正確な深度とエゴモーション推定を学習できることが示される。
Grossberg と Nayar の幾何学モデルにインスパイアされた我々は、ピクセルワイド射影線を表す畳み込みネットワークである Neural Ray Surfaces (NRS) を導入する。
本研究では,多種多様なカメラシステムを用いて得られた生ビデオから,視覚計測の自己教師付き学習と深度推定にNRSを用いることを実証する。
論文 参考訳(メタデータ) (2020-08-15T02:29:13Z) - Single View Metrology in the Wild [94.7005246862618]
本研究では,物体の3次元の高さや地上のカメラの高さで表現されるシーンの絶対的なスケールを再現する,単一ビューメロジに対する新しいアプローチを提案する。
本手法は,被写体の高さなどの3Dエンティティによる未知のカメラとの相互作用から,弱い教師付き制約を抑えるために設計されたディープネットワークによって学習されたデータ駆動の先行情報に依存する。
いくつかのデータセットと仮想オブジェクト挿入を含むアプリケーションに対して、最先端の定性的かつ定量的な結果を示す。
論文 参考訳(メタデータ) (2020-07-18T22:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。