論文の概要: GVDepth: Zero-Shot Monocular Depth Estimation for Ground Vehicles based on Probabilistic Cue Fusion
- arxiv url: http://arxiv.org/abs/2412.06080v1
- Date: Sun, 08 Dec 2024 22:04:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:56:40.886680
- Title: GVDepth: Zero-Shot Monocular Depth Estimation for Ground Vehicles based on Probabilistic Cue Fusion
- Title(参考訳): GVDepth:確率的キュー融合に基づく地上車両のゼロショット単眼深度推定
- Authors: Karlo Koledic, Luka Petrovic, Ivan Markovic, Ivan Petrovic,
- Abstract要約: 計量単分子深度推定の一般化は、その不適切な性質のために重要な課題となる。
本稿では,様々なカメラ設定の整合性を維持する新しい標準表現を提案する。
また,物体の大きさや垂直位置の手がかりによって推定される深度を適応的かつ確率的に融合する新しいアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 7.588468985212172
- License:
- Abstract: Generalizing metric monocular depth estimation presents a significant challenge due to its ill-posed nature, while the entanglement between camera parameters and depth amplifies issues further, hindering multi-dataset training and zero-shot accuracy. This challenge is particularly evident in autonomous vehicles and mobile robotics, where data is collected with fixed camera setups, limiting the geometric diversity. Yet, this context also presents an opportunity: the fixed relationship between the camera and the ground plane imposes additional perspective geometry constraints, enabling depth regression via vertical image positions of objects. However, this cue is highly susceptible to overfitting, thus we propose a novel canonical representation that maintains consistency across varied camera setups, effectively disentangling depth from specific parameters and enhancing generalization across datasets. We also propose a novel architecture that adaptively and probabilistically fuses depths estimated via object size and vertical image position cues. A comprehensive evaluation demonstrates the effectiveness of the proposed approach on five autonomous driving datasets, achieving accurate metric depth estimation for varying resolutions, aspect ratios and camera setups. Notably, we achieve comparable accuracy to existing zero-shot methods, despite training on a single dataset with a single-camera setup.
- Abstract(参考訳): 計量単眼深度推定の一般化は、カメラパラメータと深度との絡み合いがさらに問題を増幅し、マルチデータセットのトレーニングやゼロショット精度を妨げている。
この課題は、固定されたカメラ設定でデータが収集され、幾何学的な多様性が制限される自動運転車やモバイルロボティクスにおいて特に顕著である。
しかし、この文脈はまた、カメラと地上平面との間の固定された関係は、物体の垂直画像位置による深度回帰を可能にする追加の視点幾何学的制約を課す。
しかし、このキューはオーバーフィッティングに非常に敏感であるため、様々なカメラ設定間の一貫性を維持し、特定のパラメータからの奥行きを効果的に遠ざけ、データセット間の一般化を向上する新しい標準表現を提案する。
また,物体の大きさや垂直位置の手がかりによって推定される深度を適応的かつ確率的に融合する新しいアーキテクチャを提案する。
総合評価では、5つの自律運転データセットに対する提案手法の有効性を示し、様々な解像度、アスペクト比、カメラ設定の正確な距離推定を実現している。
特に、単一カメラのセットアップで単一のデータセットでトレーニングされているにもかかわらず、既存のゼロショットメソッドに匹敵する精度を実現しています。
関連論文リスト
- Lift-Attend-Splat: Bird's-eye-view camera-lidar fusion using transformers [39.14931758754381]
単分子深度推定を完全に回避する新しい融合法を提案する。
本モデルでは,ライダー機能の利用率に基づいて,カメラ機能の利用を調節できることが示されている。
論文 参考訳(メタデータ) (2023-12-22T18:51:50Z) - GenDepth: Generalizing Monocular Depth Estimation for Arbitrary Camera
Parameters via Ground Plane Embedding [8.289857214449372]
GenDepthは任意の車載カメラの設定に対してメートル法深度推定を行うことができる新しいモデルである。
地平面深度としてのカメラパラメータの新たな埋め込みを提案し,これらの埋め込みを対角領域アライメントと統合するアーキテクチャを提案する。
我々はGenDepthをいくつかの自律走行データセットで検証し、異なる車載カメラシステムに対する最先端の一般化能力を実証した。
論文 参考訳(メタデータ) (2023-12-10T22:28:34Z) - GEDepth: Ground Embedding for Monocular Depth Estimation [4.95394574147086]
本稿では,画像からカメラパラメータを分離する新たな接地モジュールを提案する。
地下深度と残留深度を最適に組み合わせるために、地上の注意をモジュール内に設計する。
実験の結果,本手法は一般的なベンチマークで最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-09-18T17:56:06Z) - Multi-Modal Dataset Acquisition for Photometrically Challenging Object [56.30027922063559]
本稿では,3次元視覚タスクにおける現在のデータセットの限界について,精度,サイズ,リアリズム,および光度に挑戦する対象に対する適切な画像モダリティの観点から検討する。
既存の3次元認識と6次元オブジェクトポーズデータセットを強化する新しいアノテーションと取得パイプラインを提案する。
論文 参考訳(メタデータ) (2023-08-21T10:38:32Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Robust Self-Supervised Extrinsic Self-Calibration [25.727912226753247]
マルチカメラによるビデオからの単眼深度推定は、環境を判断する上で有望な方法である。
本稿では,自己教師型単眼深度と自我運動学習の原理を基礎として,外因性キャリブレーションの新たな手法を提案する。
論文 参考訳(メタデータ) (2023-08-04T06:20:20Z) - FS-Depth: Focal-and-Scale Depth Estimation from a Single Image in Unseen
Indoor Scene [57.26600120397529]
実際の(見えない)屋内シーンの単一の画像から絶対深度マップを予測するのには、長年不適切な問題だった。
本研究では,未確認屋内シーンの単一画像から絶対深度マップを正確に学習するための焦点・スケール深度推定モデルを開発した。
論文 参考訳(メタデータ) (2023-07-27T04:49:36Z) - Multi-Camera Collaborative Depth Prediction via Consistent Structure
Estimation [75.99435808648784]
本稿では,新しいマルチカメラ協調深度予測法を提案する。
カメラ間の構造的整合性を維持しながら、大きな重なり合う領域を必要としない。
DDADおよびNuScenesデータセットの実験結果から,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-05T03:44:34Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - Robust Consistent Video Depth Estimation [65.53308117778361]
本稿では,単眼映像からカメラのカメラポーズと密集した深度マップを推定するアルゴリズムを提案する。
本手法は,(1)低周波大規模アライメントのためのフレキシブルな変形-スプラインと(2)細部奥行き詳細の高周波アライメントのための幾何認識深度フィルタリングとを組み合わせた手法である。
従来の手法とは対照的に, カメラのポーズを入力として必要とせず, かなりの音量, 揺動, 動きのぼやき, 転がりシャッター変形を含む携帯のハンドヘルドキャプチャに頑健な再構成を実現する。
論文 参考訳(メタデータ) (2020-12-10T18:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。