論文の概要: Exploring Contextual Representation and Multi-Modality for End-to-End
Autonomous Driving
- arxiv url: http://arxiv.org/abs/2210.06758v2
- Date: Tue, 16 Jan 2024 23:54:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 22:15:00.117409
- Title: Exploring Contextual Representation and Multi-Modality for End-to-End
Autonomous Driving
- Title(参考訳): エンド・ツー・エンド自動運転におけるコンテキスト表現とマルチモーダリティの探索
- Authors: Shoaib Azam, Farzeen Munir, Ville Kyrki, Moongu Jeon, and Witold
Pedrycz
- Abstract要約: 最近の知覚システムは、センサー融合による空間理解を高めるが、しばしば完全な環境コンテキストを欠いている。
我々は,3台のカメラを統合し,人間の視野をエミュレートするフレームワークを導入し,トップダウンのバードアイビューセマンティックデータと組み合わせて文脈表現を強化する。
提案手法は, オープンループ設定において0.67mの変位誤差を達成し, nuScenesデータセットでは6.9%の精度で現在の手法を上回っている。
- 参考スコア(独自算出の注目度): 58.879758550901364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning contextual and spatial environmental representations enhances
autonomous vehicle's hazard anticipation and decision-making in complex
scenarios. Recent perception systems enhance spatial understanding with sensor
fusion but often lack full environmental context. Humans, when driving,
naturally employ neural maps that integrate various factors such as historical
data, situational subtleties, and behavioral predictions of other road users to
form a rich contextual understanding of their surroundings. This neural
map-based comprehension is integral to making informed decisions on the road.
In contrast, even with their significant advancements, autonomous systems have
yet to fully harness this depth of human-like contextual understanding.
Motivated by this, our work draws inspiration from human driving patterns and
seeks to formalize the sensor fusion approach within an end-to-end autonomous
driving framework. We introduce a framework that integrates three cameras
(left, right, and center) to emulate the human field of view, coupled with
top-down bird-eye-view semantic data to enhance contextual representation. The
sensor data is fused and encoded using a self-attention mechanism, leading to
an auto-regressive waypoint prediction module. We treat feature representation
as a sequential problem, employing a vision transformer to distill the
contextual interplay between sensor modalities. The efficacy of the proposed
method is experimentally evaluated in both open and closed-loop settings. Our
method achieves displacement error by 0.67m in open-loop settings, surpassing
current methods by 6.9% on the nuScenes dataset. In closed-loop evaluations on
CARLA's Town05 Long and Longest6 benchmarks, the proposed method enhances
driving performance, route completion, and reduces infractions.
- Abstract(参考訳): 文脈的および空間的環境表現の学習は、複雑なシナリオにおける自動運転車の危険予測と意思決定を促進する。
最近の知覚システムは、センサー融合による空間理解を高めるが、しばしば完全な環境コンテキストを欠いている。
人間は運転時に自然に、歴史的データ、状況の微妙さ、他の道路利用者の行動予測などの様々な要素を統合するニューラルネットワークを使って、周囲の豊かな文脈的理解を形成する。
この神経地図に基づく理解は、道路上の情報的決定に不可欠である。
対照的に、大きな進歩にもかかわらず、自律システムは人間のような文脈理解の深みを完全に活用していない。
当社の研究は、人間の運転パターンから着想を得て、エンドツーエンドの自動運転フレームワークにおけるセンサ融合アプローチの形式化を目指しています。
3つのカメラ(左、右、中央)を統合し、人間の視野をエミュレートし、トップダウンのバード・アイ・ビュー意味データと組み合わせてコンテクスト表現を強化した。
センサデータは自己アテンション機構を用いて融合符号化され、自己回帰型ウェイポイント予測モジュールとなる。
特徴表現を逐次問題として扱い、視覚変換器を用いてセンサモード間のコンテキスト相互作用を抽出する。
提案手法の有効性をオープンループとクローズループの両方で実験的に評価した。
オープンループ設定では変位誤差を0.67mとし,nuscenesデータセットでは現在の手法を6.9%上回った。
CARLAのCown05 Long and Longest6ベンチマークのクローズドループ評価では、提案手法は駆動性能、経路完成性を高め、違反を減らす。
関連論文リスト
- RainSD: Rain Style Diversification Module for Image Synthesis
Enhancement using Feature-Level Style Distribution [5.500457283114346]
本稿では,実際の道路データセットBDD100Kから発生するセンサブロックを用いた道路合成データセットを提案する。
このデータセットを用いて、自律運転のための多様なマルチタスクネットワークの劣化を評価し、分析した。
深層ニューラルネットワークを用いた自動運転車の認識システムの性能劣化傾向を深く分析した。
論文 参考訳(メタデータ) (2023-12-31T11:30:42Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - Decision Making for Autonomous Driving in Interactive Merge Scenarios
via Learning-based Prediction [39.48631437946568]
本稿では,他のドライバの動作から不確実性が生ずる移動トラフィックにマージする複雑なタスクに焦点を当てる。
我々はこの問題を部分的に観測可能なマルコフ決定プロセス(POMDP)とみなし、モンテカルロ木探索でオンラインに解決する。
POMDPの解決策は、接近する車に道を譲る、前方の車から安全な距離を維持する、あるいは交通に合流するといった、高いレベルの運転操作を行う政策である。
論文 参考訳(メタデータ) (2023-03-29T16:12:45Z) - Penalty-Based Imitation Learning With Cross Semantics Generation Sensor
Fusion for Autonomous Driving [1.2749527861829049]
本稿では,複数の情報モダリティを統合するために,ペナルティに基づく模倣学習手法を提案する。
最新技術(SOTA)モデルであるInterFuserと比較して,運転スコアが12%以上増加していることが観察された。
本モデルでは, 推論速度を7倍に向上し, モデルサイズを約30%削減しながら, この性能向上を実現している。
論文 参考訳(メタデータ) (2023-03-21T14:29:52Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文 参考訳(メタデータ) (2021-04-19T11:48:13Z) - IntentNet: Learning to Predict Intention from Raw Sensor Data [86.74403297781039]
本論文では,LiDARセンサが生成する3次元点群と,環境の動的なマップの両方を利用するワンステージ検出器と予測器を開発した。
当社のマルチタスクモデルは、それぞれの別々のモジュールよりも高い精度を実現し、計算を節約します。
論文 参考訳(メタデータ) (2021-01-20T00:31:52Z) - End-to-end Autonomous Driving Perception with Sequential Latent
Representation Learning [34.61415516112297]
エンドツーエンドのアプローチでは、システムをクリーンアップし、人間のエンジニアリングの膨大な努力を避けることができる。
潜在空間は、知覚に有用なすべての関連する特徴を捉えるために導入され、逐次潜在表現学習を通じて学習される。
学習したエンドツーエンドの知覚モデルは、最小限の人間工学的努力だけで検出、追跡、ローカライゼーション、マッピングの問題を解決することができる。
論文 参考訳(メタデータ) (2020-03-21T05:37:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。