論文の概要: On depth prediction for autonomous driving using self-supervised
learning
- arxiv url: http://arxiv.org/abs/2403.06194v1
- Date: Sun, 10 Mar 2024 12:33:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 07:18:28.250021
- Title: On depth prediction for autonomous driving using self-supervised
learning
- Title(参考訳): 自己教師付き学習による自動運転の奥行き予測について
- Authors: Houssem Boulahbal
- Abstract要約: この論文は、単眼の自己教師型学習技術を用いた深度予測の課題に焦点を当てている。
この問題は、条件付き生成逆ネットワーク(cGAN)を探索する、より広い視点からアプローチされる。
第2のコントリビューションは、厳密な前提に対する解決策を提案する、単一のイメージ・ツー・ディープス・セルフ教師方式を含む。
3つ目の重要な側面は、ビデオから深度マップの予測アプローチの導入である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Perception of the environment is a critical component for enabling autonomous
driving. It provides the vehicle with the ability to comprehend its
surroundings and make informed decisions. Depth prediction plays a pivotal role
in this process, as it helps the understanding of the geometry and motion of
the environment. This thesis focuses on the challenge of depth prediction using
monocular self-supervised learning techniques. The problem is approached from a
broader perspective first, exploring conditional generative adversarial
networks (cGANs) as a potential technique to achieve better generalization was
performed. In doing so, a fundamental contribution to the conditional GANs, the
acontrario cGAN was proposed. The second contribution entails a single
image-to-depth self-supervised method, proposing a solution for the rigid-scene
assumption using a novel transformer-based method that outputs a pose for each
dynamic object. The third significant aspect involves the introduction of a
video-to-depth map forecasting approach. This method serves as an extension of
self-supervised techniques to predict future depths. This involves the creation
of a novel transformer model capable of predicting the future depth of a given
scene. Moreover, the various limitations of the aforementioned methods were
addressed and a video-to-video depth maps model was proposed. This model
leverages the spatio-temporal consistency of the input and output sequence to
predict a more accurate depth sequence output. These methods have significant
applications in autonomous driving (AD) and advanced driver assistance systems
(ADAS).
- Abstract(参考訳): 環境の認識は、自律運転を可能にする重要な要素である。
車両に周囲の状況を把握し、情報に基づいて判断する能力を提供する。
深さ予測は、環境の幾何学と運動を理解するのに役立つため、このプロセスにおいて重要な役割を果たす。
本論文は,単眼自己教師付き学習手法を用いた深さ予測の課題に焦点を当てている。
この問題は、まずより広い視点からアプローチされ、より良い一般化を実現するための潜在的手法として条件付き生成対向ネットワーク(cGAN)を探索した。
そこで、条件付きGANの基本的な貢献として、アコントラリオcGANが提案された。
第2のコントリビューションは、動的オブジェクトごとにポーズを出力する新しいトランスフォーマーベースの手法を用いて、厳密な場面の仮定のためのソリューションを提案する、単一の画像から深度までを自己管理する手法である。
3つ目の重要な側面は、ビデオから深度マップの予測アプローチの導入である。
この手法は将来の深度を予測する自己教師技術の拡張として機能する。
これには、与えられたシーンの将来の深さを予測することができる新しいトランスフォーマーモデルの作成が含まれる。
また,上記の手法の様々な制限に対処し,ビデオから映像までの深度マップモデルを提案した。
このモデルは、入力および出力シーケンスの時空間的一貫性を利用して、より正確な深度シーケンス出力を予測する。
これらの手法は、自律運転(AD)と高度運転支援システム(ADAS)に重要な応用がある。
関連論文リスト
- Enhancing End-to-End Autonomous Driving with Latent World Model [78.22157677787239]
コストのかかるラベルを必要とせずにエンドツーエンドの運転を改善するための,新しい自己管理手法を提案する。
フレームワーク textbfLAW は LAtent World モデルを用いて,予測エゴアクションと現在のフレームの潜在機能に基づいて,今後の潜在機能を予測する。
その結果,オープンループベンチマークとクローズループベンチマークの両方において,コストのかかるアノテーションを使わずに最先端のパフォーマンスを実現することができた。
論文 参考訳(メタデータ) (2024-06-12T17:59:21Z) - End-to-end Autonomous Driving: Challenges and Frontiers [45.391430626264764]
エンドツーエンドの自動運転におけるモチベーション、ロードマップ、方法論、課題、今後のトレンドについて、270以上の論文を包括的に分析する。
マルチモダリティ、解釈可能性、因果的混乱、堅牢性、世界モデルなど、いくつかの重要な課題を掘り下げます。
基礎モデルと視覚前訓練の現在の進歩と、これらの技術をエンドツーエンドの駆動フレームワークに組み込む方法について論じる。
論文 参考訳(メタデータ) (2023-06-29T14:17:24Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - Exploring Contextual Representation and Multi-Modality for End-to-End
Autonomous Driving [58.879758550901364]
最近の知覚システムは、センサー融合による空間理解を高めるが、しばしば完全な環境コンテキストを欠いている。
我々は,3台のカメラを統合し,人間の視野をエミュレートするフレームワークを導入し,トップダウンのバードアイビューセマンティックデータと組み合わせて文脈表現を強化する。
提案手法は, オープンループ設定において0.67mの変位誤差を達成し, nuScenesデータセットでは6.9%の精度で現在の手法を上回っている。
論文 参考訳(メタデータ) (2022-10-13T05:56:20Z) - ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal
Feature Learning [132.20119288212376]
本稿では,認識,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。
私たちの知識を最大限に活用するために、私たちは、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査した最初の人です。
論文 参考訳(メタデータ) (2022-07-15T16:57:43Z) - Forecasting of depth and ego-motion with transformers and
self-supervision [0.0]
本稿では,深度とエゴ運動のエンドツーエンド自己監督予測の問題に対処する。
原画像の列が与えられた場合、教師付き自己測光損失を用いて、幾何と自我運動の両方を予測することを目的とする。
アーキテクチャは、畳み込みモジュールとトランスフォーマーモジュールの両方を使って設計されている。
論文 参考訳(メタデータ) (2022-06-15T10:14:11Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。