論文の概要: Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models
- arxiv url: http://arxiv.org/abs/2310.17642v1
- Date: Thu, 26 Oct 2023 17:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 18:14:25.059735
- Title: Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models
- Title(参考訳): drive anywhere:マルチモーダル基礎モデルによるエンド・ツー・エンドの自動運転の一般化
- Authors: Tsun-Hsuan Wang and Alaa Maalouf and Wei Xiao and Yutong Ban and
Alexander Amini and Guy Rosman and Sertac Karaman and Daniela Rus
- Abstract要約: 本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
- 参考スコア(独自算出の注目度): 114.69732301904419
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As autonomous driving technology matures, end-to-end methodologies have
emerged as a leading strategy, promising seamless integration from perception
to control via deep learning. However, existing systems grapple with challenges
such as unexpected open set environments and the complexity of black-box
models. At the same time, the evolution of deep learning introduces larger,
multimodal foundational models, offering multi-modal visual and textual
understanding. In this paper, we harness these multimodal foundation models to
enhance the robustness and adaptability of autonomous driving systems, enabling
out-of-distribution, end-to-end, multimodal, and more explainable autonomy.
Specifically, we present an approach to apply end-to-end open-set (any
environment/scene) autonomous driving that is capable of providing driving
decisions from representations queryable by image and text. To do so, we
introduce a method to extract nuanced spatial (pixel/patch-aligned) features
from transformers to enable the encapsulation of both spatial and semantic
features. Our approach (i) demonstrates unparalleled results in diverse tests
while achieving significantly greater robustness in out-of-distribution
situations, and (ii) allows the incorporation of latent space simulation (via
text) for improved training (data augmentation via text) and policy debugging.
We encourage the reader to check our explainer video at
https://www.youtube.com/watch?v=4n-DJf8vXxo&feature=youtu.be and to view the
code and demos on our project webpage at https://drive-anywhere.github.io/.
- Abstract(参考訳): 自動運転技術が成熟するにつれて、エンドツーエンドの方法論が主要な戦略として登場し、知覚からディープラーニングによる制御へのシームレスな統合を約束している。
しかし、既存のシステムは予期せぬオープンセット環境やブラックボックスモデルの複雑さといった課題を抱えている。
同時に、ディープラーニングの進化は、より大きくマルチモーダルな基礎モデルを導入し、マルチモーダルなビジュアルとテキストの理解を提供する。
本稿では,これらマルチモーダル基礎モデルを用いて,自律運転システムのロバスト性と適応性を高め,分散性,エンドツーエンド,マルチモーダル,より説明可能な自律性を実現する。
具体的には、画像とテキストで検索可能な表現から駆動決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
そこで我々は,空間的特徴と意味的特徴の両方をカプセル化可能にするため,トランスフォーマからニュアンス空間(ピクセル/パッチアライメント)の特徴を抽出する手法を提案する。
私たちのアプローチ
(i)多種多様な試験において無別な結果を示す一方で, 分布域外におけるロバスト性が著しく向上する。
i) トレーニングの改善(テキストによるデータ拡張)とポリシーデバッギングのための遅延空間シミュレーション(テキスト経由)を組み込むことができる。
読者に、https://www.youtube.com/watch.com で説明ビデオを確認することをお勧めします。
v=4n-DJf8vXxo&feature=youtu.be プロジェクト Web ページ https://drive-anywhere.github.io/ でコードとデモを見ることができます。
関連論文リスト
- Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - LLM4Drive: A Survey of Large Language Models for Autonomous Driving [62.10344445241105]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。
本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (2023-11-02T07:23:33Z) - End-to-end Autonomous Driving: Challenges and Frontiers [45.391430626264764]
エンドツーエンドの自動運転におけるモチベーション、ロードマップ、方法論、課題、今後のトレンドについて、270以上の論文を包括的に分析する。
マルチモダリティ、解釈可能性、因果的混乱、堅牢性、世界モデルなど、いくつかの重要な課題を掘り下げます。
基礎モデルと視覚前訓練の現在の進歩と、これらの技術をエンドツーエンドの駆動フレームワークに組み込む方法について論じる。
論文 参考訳(メタデータ) (2023-06-29T14:17:24Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - MultiPath++: Efficient Information Fusion and Trajectory Aggregation for
Behavior Prediction [42.563865078323204]
MultiPath++は、一般的なベンチマークで最先端のパフォーマンスを実現する将来の予測モデルである。
提案手法は,Argoverse Motion Forecasting CompetitionとOpen Motion Prediction Challengeにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-11-29T21:36:53Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - ML-PersRef: A Machine Learning-based Personalized Multimodal Fusion
Approach for Referencing Outside Objects From a Moving Vehicle [0.0]
シミュレーション環境下での長い運転経路を維持しながら、車外物体を参照するための学習に基づくマルチモーダル融合手法を提案する。
また,各ドライバに対して適応型パーソナライズシステムを実現するために,参照タスクの完了時にユーザ間の行動差を利用する方法を示す。
論文 参考訳(メタデータ) (2021-11-03T16:22:17Z) - SMARTS: Scalable Multi-Agent Reinforcement Learning Training School for
Autonomous Driving [96.50297622371457]
マルチエージェントインタラクションは、現実の世界における自律運転の基本的な側面である。
研究と開発が10年以上続いたにもかかわらず、様々なシナリオで多様な道路ユーザーと対話する方法の問題は未解決のままである。
SMARTSと呼ばれる,多種多様な運転インタラクションを生成する専用シミュレーションプラットフォームを開発した。
論文 参考訳(メタデータ) (2020-10-19T18:26:10Z) - Interpretable End-to-end Urban Autonomous Driving with Latent Deep
Reinforcement Learning [32.97789225998642]
本稿では,エンドツーエンド自動運転のための解釈可能な深部強化学習手法を提案する。
逐次潜在環境モデルを導入し、強化学習プロセスと共同で学習する。
本手法は,自動車が運転環境にどう影響するかを,よりよく説明することができる。
論文 参考訳(メタデータ) (2020-01-23T18:36:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。