論文の概要: Camera Height Doesn't Change: Unsupervised Training for Metric Monocular Road-Scene Depth Estimation
- arxiv url: http://arxiv.org/abs/2312.04530v3
- Date: Tue, 01 Oct 2024 16:12:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-02 16:31:53.894537
- Title: Camera Height Doesn't Change: Unsupervised Training for Metric Monocular Road-Scene Depth Estimation
- Title(参考訳): カメラの高度は変化しない: 平均単眼道路深度推定のための教師なしトレーニング
- Authors: Genki Kinoshita, Ko Nishino,
- Abstract要約: 単分子深度ネットワークに絶対的なスケールを学習させ,道路シーン深度を推定する新たなトレーニング手法を提案する。
主要なアイデアは、道路で見つかった車をスケールの監督源として活用し、ネットワークトレーニングにしっかりと組み込むことだ。
FuMETはフレーム内の車の大きさを検出して推定し、そこから抽出したスケール情報をカメラの高さの見積に集約する。
- 参考スコア(独自算出の注目度): 19.20790327389337
- License:
- Abstract: In this paper, we introduce a novel training method for making any monocular depth network learn absolute scale and estimate metric road-scene depth just from regular training data, i.e., driving videos. We refer to this training framework as FUMET. The key idea is to leverage cars found on the road as sources of scale supervision and to incorporate them in network training robustly. FUMET detects and estimates the sizes of cars in a frame and aggregates scale information extracted from them into an estimate of the camera height whose consistency across the entire video sequence is enforced as scale supervision. This realizes robust unsupervised training of any, otherwise scale-oblivious, monocular depth network so that they become not only scale-aware but also metric-accurate without the need for auxiliary sensors and extra supervision. Extensive experiments on the KITTI and the Cityscapes datasets show the effectiveness of FUMET, which achieves state-of-the-art accuracy. We also show that FUMET enables training on mixed datasets of different camera heights, which leads to larger-scale training and better generalization. Metric depth reconstruction is essential in any road-scene visual modeling, and FUMET democratizes its deployment by establishing the means to convert any model into a metric depth estimator.
- Abstract(参考訳): 本稿では,単眼深度ネットワークに絶対規模を学習させる新たなトレーニング手法を提案する。
このトレーニングフレームワークをFUMETと呼ぶ。
主要なアイデアは、道路で見つかった車をスケールの監督源として活用し、ネットワークトレーニングにしっかりと組み込むことだ。
FUMETは、フレーム内の車の大きさを検出して推定し、そこから抽出したスケール情報を、ビデオシーケンス全体の一貫性がスケール監視として強制されるカメラ高さの推定に集約する。
これにより、スケールを意識するだけでなく、補助センサーや余分な監視を必要とせず、メートル法的にも正確になるように、いかなる大規模かつ単眼的な深度ネットワークの堅牢な教師なしのトレーニングを実現する。
KITTIとCityscapesデータセットの大規模な実験は、最先端の精度を実現するFUMETの有効性を示している。
また、FUMETは、異なるカメラ高さの混合データセットのトレーニングを可能にし、より大規模なトレーニングとより優れた一般化をもたらすことを示す。
FUMETは、任意のモデルをメートル法深度推定器に変換する手段を確立することで、その展開を民主化する。
関連論文リスト
- FisheyeDepth: A Real Scale Self-Supervised Depth Estimation Model for Fisheye Camera [8.502741852406904]
魚眼カメラに適した自己監督深度推定モデルである魚眼深度について述べる。
魚眼カメラモデルを訓練中の投射と再投射の段階に組み込んで画像歪みの処理を行う。
また、連続するフレーム間の幾何学的投影に実際のポーズ情報を組み込んで、従来のポーズネットワークで推定されたポーズを置き換える。
論文 参考訳(メタデータ) (2024-09-23T14:31:42Z) - Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image [85.91935485902708]
ゼロショット単視距離深度モデルの鍵は、大規模データトレーニングと様々なカメラモデルからの距離あいまいさの解消の組合せにあることを示す。
本稿では,あいまいさ問題に明示的に対処し,既存の単分子モデルにシームレスに接続可能な標準カメラ空間変換モジュールを提案する。
本手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。
論文 参考訳(メタデータ) (2023-07-20T16:14:23Z) - FSNet: Redesign Self-Supervised MonoDepth for Full-Scale Depth
Prediction for Autonomous Driving [18.02943016671203]
本研究では,自律走行シーンの高精度なスケール認識深度予測のための包括的自己教師型フレームワークを提案する。
特に,FSNetと呼ばれるフルスケール深度予測ネットワークを導入する。
FSNetを使えば、ロボットや車両は1台のカメラしか持たず、訓練用画像フレームやカメラポーズのシーケンスを収集し、余分なラベル付け作業や3Dデータなしで環境の正確な3D深度を推測することができる。
論文 参考訳(メタデータ) (2023-04-21T03:17:04Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular
Depth Estimation by Integrating IMU Motion Dynamics [74.1720528573331]
教師なし単眼深度と自我運動推定は近年広く研究されている。
我々は、視覚情報とIMUモーションダイナミクスを統合した新しいスケールアウェアフレームワークDynaDepthを提案する。
我々は、KITTIおよびMake3Dデータセット上で広範囲な実験とシミュレーションを行うことにより、DynaDepthの有効性を検証する。
論文 参考訳(メタデータ) (2022-07-11T07:50:22Z) - SelfTune: Metrically Scaled Monocular Depth Estimation through
Self-Supervised Learning [53.78813049373321]
本稿では,事前学習した教師付き単分子深度ネットワークに対する自己教師付き学習手法を提案する。
本手法は移動ロボットナビゲーションなどの様々な応用に有用であり,多様な環境に適用可能である。
論文 参考訳(メタデータ) (2022-03-10T12:28:42Z) - Self-Supervised Steering Angle Prediction for Vehicle Control Using
Visual Odometry [55.11913183006984]
視覚オドメトリー法を用いて推定したカメラポーズを用いて,車両の軌道制御をモデルに訓練する方法を示す。
車両の前方にカメラを設置することにより,複数の異なる走行経路からの軌跡情報を活用するスケーラブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-20T16:29:01Z) - Auto-Rectify Network for Unsupervised Indoor Depth Estimation [119.82412041164372]
ハンドヘルド環境に現れる複雑な自我運動が,学習深度にとって重要な障害であることが確認された。
本稿では,相対回転を除去してトレーニング画像の修正を効果的に行うデータ前処理手法を提案する。
その結果、従来の教師なしSOTA法よりも、難易度の高いNYUv2データセットよりも優れていた。
論文 参考訳(メタデータ) (2020-06-04T08:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。