論文の概要: Camera Height Doesn't Change: Unsupervised Training for Metric Monocular Road-Scene Depth Estimation
- arxiv url: http://arxiv.org/abs/2312.04530v3
- Date: Tue, 01 Oct 2024 16:12:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-02 16:31:53.894537
- Title: Camera Height Doesn't Change: Unsupervised Training for Metric Monocular Road-Scene Depth Estimation
- Title(参考訳): カメラの高度は変化しない: 平均単眼道路深度推定のための教師なしトレーニング
- Authors: Genki Kinoshita, Ko Nishino,
- Abstract要約: 単分子深度ネットワークに絶対的なスケールを学習させ,道路シーン深度を推定する新たなトレーニング手法を提案する。
主要なアイデアは、道路で見つかった車をスケールの監督源として活用し、ネットワークトレーニングにしっかりと組み込むことだ。
FuMETはフレーム内の車の大きさを検出して推定し、そこから抽出したスケール情報をカメラの高さの見積に集約する。
- 参考スコア(独自算出の注目度): 19.20790327389337
- License:
- Abstract: In this paper, we introduce a novel training method for making any monocular depth network learn absolute scale and estimate metric road-scene depth just from regular training data, i.e., driving videos. We refer to this training framework as FUMET. The key idea is to leverage cars found on the road as sources of scale supervision and to incorporate them in network training robustly. FUMET detects and estimates the sizes of cars in a frame and aggregates scale information extracted from them into an estimate of the camera height whose consistency across the entire video sequence is enforced as scale supervision. This realizes robust unsupervised training of any, otherwise scale-oblivious, monocular depth network so that they become not only scale-aware but also metric-accurate without the need for auxiliary sensors and extra supervision. Extensive experiments on the KITTI and the Cityscapes datasets show the effectiveness of FUMET, which achieves state-of-the-art accuracy. We also show that FUMET enables training on mixed datasets of different camera heights, which leads to larger-scale training and better generalization. Metric depth reconstruction is essential in any road-scene visual modeling, and FUMET democratizes its deployment by establishing the means to convert any model into a metric depth estimator.
- Abstract(参考訳): 本稿では,単眼深度ネットワークに絶対規模を学習させる新たなトレーニング手法を提案する。
このトレーニングフレームワークをFUMETと呼ぶ。
主要なアイデアは、道路で見つかった車をスケールの監督源として活用し、ネットワークトレーニングにしっかりと組み込むことだ。
FUMETは、フレーム内の車の大きさを検出して推定し、そこから抽出したスケール情報を、ビデオシーケンス全体の一貫性がスケール監視として強制されるカメラ高さの推定に集約する。
これにより、スケールを意識するだけでなく、補助センサーや余分な監視を必要とせず、メートル法的にも正確になるように、いかなる大規模かつ単眼的な深度ネットワークの堅牢な教師なしのトレーニングを実現する。
KITTIとCityscapesデータセットの大規模な実験は、最先端の精度を実現するFUMETの有効性を示している。
また、FUMETは、異なるカメラ高さの混合データセットのトレーニングを可能にし、より大規模なトレーニングとより優れた一般化をもたらすことを示す。
FUMETは、任意のモデルをメートル法深度推定器に変換する手段を確立することで、その展開を民主化する。
関連論文リスト
- Safe Navigation: Training Autonomous Vehicles using Deep Reinforcement
Learning in CARLA [0.0]
このプロジェクトの目的は、深層強化学習技術を用いて、不確実な環境での走行を判断できるように自動運転車を訓練することである。
シミュレータは、自動運転モデルのトレーニングとテストのための現実的で都市環境を提供する。
論文 参考訳(メタデータ) (2023-10-23T04:23:07Z) - Robust Self-Supervised Extrinsic Self-Calibration [25.727912226753247]
マルチカメラによるビデオからの単眼深度推定は、環境を判断する上で有望な方法である。
本稿では,自己教師型単眼深度と自我運動学習の原理を基礎として,外因性キャリブレーションの新たな手法を提案する。
論文 参考訳(メタデータ) (2023-08-04T06:20:20Z) - Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image [85.91935485902708]
ゼロショット単視距離深度モデルの鍵は、大規模データトレーニングと様々なカメラモデルからの距離あいまいさの解消の組合せにあることを示す。
本稿では,あいまいさ問題に明示的に対処し,既存の単分子モデルにシームレスに接続可能な標準カメラ空間変換モジュールを提案する。
本手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。
論文 参考訳(メタデータ) (2023-07-20T16:14:23Z) - Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular
Depth Estimation by Integrating IMU Motion Dynamics [74.1720528573331]
教師なし単眼深度と自我運動推定は近年広く研究されている。
我々は、視覚情報とIMUモーションダイナミクスを統合した新しいスケールアウェアフレームワークDynaDepthを提案する。
我々は、KITTIおよびMake3Dデータセット上で広範囲な実験とシミュレーションを行うことにより、DynaDepthの有効性を検証する。
論文 参考訳(メタデータ) (2022-07-11T07:50:22Z) - Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。
搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。
ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文 参考訳(メタデータ) (2022-06-16T10:45:17Z) - SelfTune: Metrically Scaled Monocular Depth Estimation through
Self-Supervised Learning [53.78813049373321]
本稿では,事前学習した教師付き単分子深度ネットワークに対する自己教師付き学習手法を提案する。
本手法は移動ロボットナビゲーションなどの様々な応用に有用であり,多様な環境に適用可能である。
論文 参考訳(メタデータ) (2022-03-10T12:28:42Z) - Self-Supervised Steering Angle Prediction for Vehicle Control Using
Visual Odometry [55.11913183006984]
視覚オドメトリー法を用いて推定したカメラポーズを用いて,車両の軌道制御をモデルに訓練する方法を示す。
車両の前方にカメラを設置することにより,複数の異なる走行経路からの軌跡情報を活用するスケーラブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-20T16:29:01Z) - Auto-Rectify Network for Unsupervised Indoor Depth Estimation [119.82412041164372]
ハンドヘルド環境に現れる複雑な自我運動が,学習深度にとって重要な障害であることが確認された。
本稿では,相対回転を除去してトレーニング画像の修正を効果的に行うデータ前処理手法を提案する。
その結果、従来の教師なしSOTA法よりも、難易度の高いNYUv2データセットよりも優れていた。
論文 参考訳(メタデータ) (2020-06-04T08:59:17Z) - RealMonoDepth: Self-Supervised Monocular Depth Estimation for General
Scenes [11.995578248462946]
既存の単眼深度推定法では、トレーニングに正確な深度測定が必要である。
自己監督的なアプローチは印象的な結果を示しているが、異なる奥行き範囲やカメラベースラインのシーンには一般化しない。
本研究では,屋内・屋外の多様なシーンに対して,実景深度を推定する自己教師型単眼深度推定手法であるRealMonoDepthを紹介する。
論文 参考訳(メタデータ) (2020-04-14T02:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。