論文の概要: LeTFuser: Light-weight End-to-end Transformer-Based Sensor Fusion for
Autonomous Driving with Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2310.13135v2
- Date: Fri, 10 Nov 2023 23:07:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 20:01:05.238371
- Title: LeTFuser: Light-weight End-to-end Transformer-Based Sensor Fusion for
Autonomous Driving with Multi-Task Learning
- Title(参考訳): LeTFuser:マルチタスク学習による自律運転のための軽量エンドツーエンドトランスフォーマーベースセンサフュージョン
- Authors: Pedram Agand, Mohammad Mahdavian, Manolis Savva, Mo Chen
- Abstract要約: 本稿では,複数のRGB-Dカメラ表現を融合させるアルゴリズムであるLeTFuserを紹介する。
認識と制御を同時に行うためには,マルチタスク学習を利用する。
- 参考スコア(独自算出の注目度): 16.241116794114525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In end-to-end autonomous driving, the utilization of existing sensor fusion
techniques for imitation learning proves inadequate in challenging situations
that involve numerous dynamic agents. To address this issue, we introduce
LeTFuser, a \mmm{lightweight} transformer-based algorithm for fusing multiple
RGB-D camera representations. To perform perception and control tasks
simultaneously, we utilize multi-task learning. Our model comprises of two
modules, the first being the perception module that is responsible for encoding
the observation data obtained from the RGB-D cameras. It carries out tasks such
as semantic segmentation, semantic depth cloud mapping (SDC), and traffic light
state recognition. Our approach employs the Convolutional vision Transformer
(CvT) \cite{wu2021cvt} to better extract and fuse features from multiple RGB
cameras due to local and global feature extraction capability of convolution
and transformer modules, respectively. Following this, the control module
undertakes the decoding of the encoded characteristics together with
supplementary data, comprising a rough simulator for static and dynamic
environments, as well as various measurements, in order to anticipate the
waypoints associated with a latent feature space. We use two methods to process
these outputs and generate the vehicular controls (e.g. steering, throttle, and
brake) levels. The first method uses a PID algorithm to follow the waypoints on
the fly, whereas the second one directly predicts the control policy using the
measurement features and environmental state. We evaluate the model and conduct
a comparative analysis with recent models on the CARLA simulator using various
scenarios, ranging from normal to adversarial conditions, to simulate
real-world scenarios. Our code is available at
\url{https://github.com/pagand/e2etransfuser/tree/cvpr-w} to facilitate future
studies.
- Abstract(参考訳): エンド・ツー・エンドの自律運転において、既存のセンサー融合技術を利用した模倣学習は、多数の動的エージェントを含む困難な状況において不十分であることを示す。
この問題に対処するため,複数のRGB-Dカメラ表現を融合させるアルゴリズムであるLeTFuserを導入する。
認識と制御を同時に行うためには,マルチタスク学習を利用する。
本モデルは,RGB-Dカメラから得られた観測データを符号化する知覚モジュールである2つのモジュールから構成される。
セマンティックセグメンテーション、セマンティック深度クラウドマッピング(sdc)、トラフィックライト状態認識などのタスクを実行する。
コンボリューションビジョントランスフォーマー (cvt) \cite{wu2021cvt} を用いて, コンボリューションとトランスフォーマーモジュールの局所的およびグローバル的特徴抽出能力により, 複数のrgbカメラから特徴を抽出・融合する手法を提案する。
これに続いて、制御モジュールは、遅延特徴空間に関連するウェイポイントを予測するために、静的および動的環境のための粗いシミュレータと様々な測定を含む補足データとともに符号化された特性の復号を行う。
これらの出力を2つの方法で処理し、車両の制御レベル(ステアリング、スロットル、ブレーキなど)を生成する。
第1の方法は、PIDアルゴリズムを用いてハエの進路を追従する一方、第2の方法は、計測特性と環境状態を用いて制御ポリシーを直接予測する。
実世界のシナリオをシミュレーションするために,本モデルを評価し,CARLAシミュレータを用いた最近のモデルとの比較分析を行った。
私たちのコードは、将来の研究を促進するために、 \url{https://github.com/pagand/e2etransfuser/tree/cvpr-w}で利用可能です。
関連論文リスト
- Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Tactics2D: A Highly Modular and Extensible Simulator for Driving Decision-making [24.795867304772404]
既存のシミュレータは、様々なシナリオや、交通参加者のためのインタラクティブな振る舞いモデルで不足することが多い。
Tactics2Dは、道路要素、交通規制、行動モデル、車両の物理シミュレーション、イベント検出機構を含む、交通シナリオ構築へのモジュラーアプローチを採用する。
ユーザは、パブリックデータセットとユーザによる実世界のデータの両方を活用することで、さまざまなシナリオで意思決定モデルを駆動するパフォーマンスを効果的に評価できる。
論文 参考訳(メタデータ) (2023-11-18T12:31:34Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - M$^2$DAR: Multi-View Multi-Scale Driver Action Recognition with Vision
Transformer [5.082919518353888]
本稿では,自然主義的運転行動認識と動画のローカライゼーションのためのマルチビュー・マルチスケールフレームワークを提案する。
本システムでは,マルチスケールトランスフォーマーに基づく動作認識ネットワークを特徴とし,頑健な階層表現を学習する。
論文 参考訳(メタデータ) (2023-05-13T02:38:15Z) - PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。
2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文 参考訳(メタデータ) (2022-10-12T04:11:48Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Fully End-to-end Autonomous Driving with Semantic Depth Cloud Mapping
and Multi-Agent [2.512827436728378]
本稿では,エンド・ツー・エンドとマルチタスクの学習方法を用いて学習した新しいディープラーニングモデルを提案する。
このモデルは,CARLAシミュレータ上で,現実の環境を模倣するために,通常の状況と異なる天候のシナリオを用いて評価する。
論文 参考訳(メタデータ) (2022-04-12T03:57:01Z) - Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文 参考訳(メタデータ) (2021-04-19T11:48:13Z) - A Driving Behavior Recognition Model with Bi-LSTM and Multi-Scale CNN [59.57221522897815]
運転行動認識のための軌道情報に基づくニューラルネットワークモデルを提案する。
提案手法を公開BLVDデータセット上で評価し,満足な性能を実現する。
論文 参考訳(メタデータ) (2021-03-01T06:47:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。