論文の概要: FSNet: Redesign Self-Supervised MonoDepth for Full-Scale Depth
Prediction for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2304.10719v1
- Date: Fri, 21 Apr 2023 03:17:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 16:09:09.813622
- Title: FSNet: Redesign Self-Supervised MonoDepth for Full-Scale Depth
Prediction for Autonomous Driving
- Title(参考訳): FSNet: 自動走行のための完全な深さ予測のための自己監督型モノディープスを再設計
- Authors: Yuxuan Liu, Zhenhua Xu, Huaiyang Huang, Lujia Wang, Ming Liu
- Abstract要約: 本研究では,自律走行シーンの高精度なスケール認識深度予測のための包括的自己教師型フレームワークを提案する。
特に,FSNetと呼ばれるフルスケール深度予測ネットワークを導入する。
FSNetを使えば、ロボットや車両は1台のカメラしか持たず、訓練用画像フレームやカメラポーズのシーケンスを収集し、余分なラベル付け作業や3Dデータなしで環境の正確な3D深度を推測することができる。
- 参考スコア(独自算出の注目度): 18.02943016671203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting accurate depth with monocular images is important for low-cost
robotic applications and autonomous driving. This study proposes a
comprehensive self-supervised framework for accurate scale-aware depth
prediction on autonomous driving scenes utilizing inter-frame poses obtained
from inertial measurements. In particular, we introduce a Full-Scale depth
prediction network named FSNet. FSNet contains four important improvements over
existing self-supervised models: (1) a multichannel output representation for
stable training of depth prediction in driving scenarios, (2) an
optical-flow-based mask designed for dynamic object removal, (3) a
self-distillation training strategy to augment the training process, and (4) an
optimization-based post-processing algorithm in test time, fusing the results
from visual odometry. With this framework, robots and vehicles with only one
well-calibrated camera can collect sequences of training image frames and
camera poses, and infer accurate 3D depths of the environment without extra
labeling work or 3D data. Extensive experiments on the KITTI dataset, KITTI-360
dataset and the nuScenes dataset demonstrate the potential of FSNet. More
visualizations are presented in \url{https://sites.google.com/view/fsnet/home}
- Abstract(参考訳): 単眼画像による正確な深度予測は、低コストのロボット応用と自律運転において重要である。
本研究では,慣性測定から得られたフレーム間ポーズを用いた自律走行シーンの高精度なスケール認識深度予測のための包括的自己教師型フレームワークを提案する。
特に,FSNetと呼ばれるフルスケール深度予測ネットワークを導入する。
fsnetは、既存の自己教師モデルに対する4つの重要な改善が含まれている:(1)運転シナリオにおける深度予測の安定したトレーニングのためのマルチチャネル出力表現、(2)動的物体除去のために設計された光フローベースのマスク、(3)訓練プロセスを強化するための自己蒸留訓練戦略、(4)ビジュアルオドメトリーの結果を融合したテスト時間における最適化ベースのポストプロセッシングアルゴリズム。
この枠組みにより、ロボットと車両は1台のカメラしか持たず、訓練用画像フレームとカメラポーズのシーケンスを収集し、余分なラベル付け作業や3Dデータなしで環境の正確な3D深度を推測することができる。
KITTIデータセット、KITTI-360データセット、nuScenesデータセットに関する大規模な実験は、FSNetの可能性を示している。
さらなる視覚化は \url{https://sites.google.com/view/fsnet/home} に表示される。
関連論文リスト
- VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving [44.91443640710085]
VisionPADは、自律運転におけるビジョン中心のアルゴリズムのための、新しい自己教師付き事前訓練パラダイムである。
画像のみを監督として多視点表現を再構築する。
これにより、3Dオブジェクトの検出、占有率予測、マップセグメンテーションのパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2024-11-22T03:59:41Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。
我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。
DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2024-05-07T15:14:20Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - Perspective-aware Convolution for Monocular 3D Object Detection [2.33877878310217]
画像の長距離依存性をキャプチャする新しい視点対応畳み込み層を提案する。
画像画素ごとの深度軸に沿った特徴を抽出するために畳み込みカーネルを強制することにより、パースペクティブ情報をネットワークアーキテクチャに組み込む。
我々は、KITTI3Dデータセットの性能向上を実証し、簡単なベンチマークで平均23.9%の精度を達成した。
論文 参考訳(メタデータ) (2023-08-24T17:25:36Z) - Simultaneous Multiple Object Detection and Pose Estimation using 3D
Model Infusion with Monocular Vision [21.710141497071373]
複数物体の検出とポーズ推定はコンピュータビジョンの重要なタスクである。
単眼視と3Dモデルを用いた同時ニューラルモデリングを提案する。
我々の同時多重物体検出・ポース推定ネットワーク(SMOPE-Net)は、エンドツーエンドのトレーニング可能なマルチタスクネットワークである。
論文 参考訳(メタデータ) (2022-11-21T05:18:56Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z) - Auto-Rectify Network for Unsupervised Indoor Depth Estimation [119.82412041164372]
ハンドヘルド環境に現れる複雑な自我運動が,学習深度にとって重要な障害であることが確認された。
本稿では,相対回転を除去してトレーニング画像の修正を効果的に行うデータ前処理手法を提案する。
その結果、従来の教師なしSOTA法よりも、難易度の高いNYUv2データセットよりも優れていた。
論文 参考訳(メタデータ) (2020-06-04T08:59:17Z) - Exploring the Capabilities and Limits of 3D Monocular Object Detection
-- A Study on Simulation and Real World Data [0.0]
単眼カメラデータに基づく3次元物体検出が自動運転の鍵となる。
近年のディープラーニング手法は, 単一の画像から深度情報を復元する有望な結果を示す。
本稿では,深度推定の異なるパラメータ化が可能な3次元物体検出パイプラインの性能評価を行う。
論文 参考訳(メタデータ) (2020-05-15T09:05:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。