論文の概要: Camera Height Doesn't Change: Unsupervised Monocular Scale-Aware
Road-Scene Depth Estimation
- arxiv url: http://arxiv.org/abs/2312.04530v1
- Date: Thu, 7 Dec 2023 18:50:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 13:32:12.633521
- Title: Camera Height Doesn't Change: Unsupervised Monocular Scale-Aware
Road-Scene Depth Estimation
- Title(参考訳): カメラの高さは変わらない:教師なし単眼スケール対応の道路深み推定
- Authors: Genki Kinoshita and Ko Nishino
- Abstract要約: 本稿では,StableCamHと呼ばれる新しいスケール対応単眼深度推定手法を提案する。
単眼深度推定をカメラ高さ最適化として定式化することにより、堅牢で正確な教師なしエンドツーエンドトレーニングを実現する。
KITTIとCityscapesの実験は、StableCamHの有効性、関連する方法と比較して最先端の精度、一般化可能性を示している。
- 参考スコア(独自算出の注目度): 22.691593216516868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular depth estimators either require explicit scale supervision through
auxiliary sensors or suffer from scale ambiguity, which renders them difficult
to deploy in downstream applications. A possible source of scale is the sizes
of objects found in the scene, but inaccurate localization makes them difficult
to exploit. In this paper, we introduce a novel scale-aware monocular depth
estimation method called StableCamH that does not require any auxiliary sensor
or supervision. The key idea is to exploit prior knowledge of object heights in
the scene but aggregate the height cues into a single invariant measure common
to all frames in a road video sequence, namely the camera height. By
formulating monocular depth estimation as camera height optimization, we
achieve robust and accurate unsupervised end-to-end training. To realize
StableCamH, we devise a novel learning-based size prior that can directly
convert car appearance into its dimensions. Extensive experiments on KITTI and
Cityscapes show the effectiveness of StableCamH, its state-of-the-art accuracy
compared with related methods, and its generalizability. The training framework
of StableCamH can be used for any monocular depth estimation method and will
hopefully become a fundamental building block for further work.
- Abstract(参考訳): 単眼深度推定器は補助センサーによる明示的なスケール監視を必要とするか、あるいはスケールの曖昧さに苦しむため、下流のアプリケーションではデプロイが困難になる。
スケールの可能な源は、シーンで見つかったオブジェクトのサイズであるが、不正確なローカライズによって悪用が困難になる。
本稿では,補助センサや監視を必要とせず,stablecamhと呼ばれる新しいスケールアウェア単眼深度推定法を提案する。
キーとなるアイデアは、シーン内のオブジェクトの高さに関する事前の知識を活用することであるが、高さの手がかりをロードビデオシーケンスのすべてのフレームに共通する単一の不変測度、すなわちカメラの高さに集約する。
カメラ高さ最適化として単眼深度推定を定式化することにより,堅牢かつ高精度なエンドツーエンドトレーニングを実現する。
StableCamHを実現するために,自動車の外観を直接寸法に変換する新しい学習ベースサイズを考案した。
KITTIとCityscapesの大規模な実験は、StableCamHの有効性、関連する方法と比較して最先端の精度、一般化可能性を示している。
stablecamhのトレーニングフレームワークは、任意の単眼深度推定に使用することができ、さらなる作業のための基本的なビルディングブロックになることを願っている。
関連論文リスト
- Lift-Attend-Splat: Bird's-eye-view camera-lidar fusion using
transformers [39.14931758754381]
単分子深度推定を完全に回避する新しい融合法を提案する。
本モデルでは,ライダー機能の利用率に基づいて,カメラ機能の利用を調節できることが示されている。
論文 参考訳(メタデータ) (2023-12-22T18:51:50Z) - Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image [85.91935485902708]
ゼロショット単視距離深度モデルの鍵は、大規模データトレーニングと様々なカメラモデルからの距離あいまいさの解消の組合せにあることを示す。
本稿では,あいまいさ問題に明示的に対処し,既存の単分子モデルにシームレスに接続可能な標準カメラ空間変換モジュールを提案する。
本手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。
論文 参考訳(メタデータ) (2023-07-20T16:14:23Z) - Towards Zero-Shot Scale-Aware Monocular Depth Estimation [28.42580603643096]
任意のテスト画像の計量スケールを予測できる新しい単眼深度推定フレームワークであるZeroDepthを紹介する。
これは、(i)入力レベルの幾何学的埋め込みを使用して、オブジェクトの前のスケールを学習し、(ii)エンコーダとデコーダのステージをデカップリングすることで実現される。
論文 参考訳(メタデータ) (2023-06-29T18:46:11Z) - RM-Depth: Unsupervised Learning of Recurrent Monocular Depth in Dynamic
Scenes [7.81768535871051]
単分子深度と完全な3次元運動を共同で予測するための教師なし学習フレームワークが提案されている。
リカレント変調ユニットは、適応的かつ反復的にエンコーダとデコーダの特徴を融合するために使用される。
ワーピングに基づくネットワークは、セマンティック・プレファレンスを使わずに移動物体の運動場を推定するために用いられる。
論文 参考訳(メタデータ) (2023-03-08T09:11:50Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular
Depth Estimation by Integrating IMU Motion Dynamics [74.1720528573331]
教師なし単眼深度と自我運動推定は近年広く研究されている。
我々は、視覚情報とIMUモーションダイナミクスを統合した新しいスケールアウェアフレームワークDynaDepthを提案する。
我々は、KITTIおよびMake3Dデータセット上で広範囲な実験とシミュレーションを行うことにより、DynaDepthの有効性を検証する。
論文 参考訳(メタデータ) (2022-07-11T07:50:22Z) - CamLessMonoDepth: Monocular Depth Estimation with Unknown Camera
Parameters [1.7499351967216341]
単眼深度推定の最近の進歩は、深度ニューラルネットワークをトレーニングし、地中真理データを必要としない逆深度とポーズを予測することによって、単一のカメラ入力からそのような知識を得ることが可能であることを示している。
本研究では,単眼画像のみから学習することで,ピンホールカメラの内在を奥行きやポーズとともに暗黙的に推定する手法を提案する。
論文 参考訳(メタデータ) (2021-10-27T10:54:15Z) - Wide-Depth-Range 6D Object Pose Estimation in Space [124.94794113264194]
宇宙での6Dポーズ推定は、地上環境では一般的に遭遇しないユニークな課題を引き起こします。
最も顕著な違いの1つは、大気の散乱の欠如であり、物体を遠くから見えるようにします。
本稿では,単一段階の階層型エンドツーエンドトレーニングネットワークを提案する。
論文 参考訳(メタデータ) (2021-04-01T08:39:26Z) - Single View Metrology in the Wild [94.7005246862618]
本研究では,物体の3次元の高さや地上のカメラの高さで表現されるシーンの絶対的なスケールを再現する,単一ビューメロジに対する新しいアプローチを提案する。
本手法は,被写体の高さなどの3Dエンティティによる未知のカメラとの相互作用から,弱い教師付き制約を抑えるために設計されたディープネットワークによって学習されたデータ駆動の先行情報に依存する。
いくつかのデータセットと仮想オブジェクト挿入を含むアプリケーションに対して、最先端の定性的かつ定量的な結果を示す。
論文 参考訳(メタデータ) (2020-07-18T22:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。