論文の概要: LeTFuser: Light-weight End-to-end Transformer-Based Sensor Fusion for
Autonomous Driving with Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2310.13135v3
- Date: Fri, 1 Dec 2023 19:59:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 21:47:24.294427
- Title: LeTFuser: Light-weight End-to-end Transformer-Based Sensor Fusion for
Autonomous Driving with Multi-Task Learning
- Title(参考訳): LeTFuser:マルチタスク学習による自律運転のための軽量エンドツーエンドトランスフォーマーベースセンサフュージョン
- Authors: Pedram Agand, Mohammad Mahdavian, Manolis Savva, Mo Chen
- Abstract要約: 本稿では,複数のRGB-Dカメラ表現を融合させるアルゴリズムであるLeTFuserを紹介する。
認識と制御を同時に行うためには,マルチタスク学習を利用する。
- 参考スコア(独自算出の注目度): 16.241116794114525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In end-to-end autonomous driving, the utilization of existing sensor fusion
techniques and navigational control methods for imitation learning proves
inadequate in challenging situations that involve numerous dynamic agents. To
address this issue, we introduce LeTFuser, a lightweight transformer-based
algorithm for fusing multiple RGB-D camera representations. To perform
perception and control tasks simultaneously, we utilize multi-task learning.
Our model comprises of two modules, the first being the perception module that
is responsible for encoding the observation data obtained from the RGB-D
cameras. Our approach employs the Convolutional vision Transformer (CvT)
\cite{wu2021cvt} to better extract and fuse features from multiple RGB cameras
due to local and global feature extraction capability of convolution and
transformer modules, respectively. Encoded features combined with static and
dynamic environments are later employed by our control module to predict
waypoints and vehicular controls (e.g. steering, throttle, and brake). We use
two methods to generate the vehicular controls levels. The first method uses a
PID algorithm to follow the waypoints on the fly, whereas the second one
directly predicts the control policy using the measurement features and
environmental state. We evaluate the model and conduct a comparative analysis
with recent models on the CARLA simulator using various scenarios, ranging from
normal to adversarial conditions, to simulate real-world scenarios. Our method
demonstrated better or comparable results with respect to our baselines in term
of driving abilities. The code is available at
\url{https://github.com/pagand/e2etransfuser/tree/cvpr-w} to facilitate future
studies.
- Abstract(参考訳): エンド・ツー・エンドの自律運転において、既存のセンサフュージョン技術とナビゲーション制御手法を利用した模倣学習は、多数の動的エージェントを含む困難な状況において不十分であることを示す。
この問題に対処するために、複数のRGB-Dカメラ表現を融合する軽量トランスフォーマーベースのアルゴリズムLeTFuserを紹介する。
認識と制御を同時に行うためには,マルチタスク学習を利用する。
本モデルは,RGB-Dカメラから得られた観測データを符号化する知覚モジュールである2つのモジュールから構成される。
コンボリューションビジョントランスフォーマー (cvt) \cite{wu2021cvt} を用いて, コンボリューションとトランスフォーマーモジュールの局所的およびグローバル的特徴抽出能力により, 複数のrgbカメラから特徴を抽出・融合する手法を提案する。
コード化された機能と静的環境と動的環境は、後に私たちの制御モジュールがウェイポイントと車体制御(ステアリング、スロットル、ブレーキなど)を予測するために使用します。
車両制御レベルの生成には2つの方法を用いる。
第1の方法は、PIDアルゴリズムを用いてハエの進路を追従する一方、第2の方法は、計測特性と環境状態を用いて制御ポリシーを直接予測する。
実世界のシナリオをシミュレーションするために,本モデルを評価し,CARLAシミュレータを用いた最近のモデルとの比較分析を行った。
本手法は運転能力の基準値に対して, より良い, 比較可能な結果を示した。
将来の研究を容易にするために、コードは \url{https://github.com/pagand/e2etransfuser/tree/cvpr-w} で入手できる。
関連論文リスト
- Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Tactics2D: A Highly Modular and Extensible Simulator for Driving Decision-making [24.795867304772404]
既存のシミュレータは、様々なシナリオや、交通参加者のためのインタラクティブな振る舞いモデルで不足することが多い。
Tactics2Dは、道路要素、交通規制、行動モデル、車両の物理シミュレーション、イベント検出機構を含む、交通シナリオ構築へのモジュラーアプローチを採用する。
ユーザは、パブリックデータセットとユーザによる実世界のデータの両方を活用することで、さまざまなシナリオで意思決定モデルを駆動するパフォーマンスを効果的に評価できる。
論文 参考訳(メタデータ) (2023-11-18T12:31:34Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - M$^2$DAR: Multi-View Multi-Scale Driver Action Recognition with Vision
Transformer [5.082919518353888]
本稿では,自然主義的運転行動認識と動画のローカライゼーションのためのマルチビュー・マルチスケールフレームワークを提案する。
本システムでは,マルチスケールトランスフォーマーに基づく動作認識ネットワークを特徴とし,頑健な階層表現を学習する。
論文 参考訳(メタデータ) (2023-05-13T02:38:15Z) - PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。
2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文 参考訳(メタデータ) (2022-10-12T04:11:48Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Fully End-to-end Autonomous Driving with Semantic Depth Cloud Mapping
and Multi-Agent [2.512827436728378]
本稿では,エンド・ツー・エンドとマルチタスクの学習方法を用いて学習した新しいディープラーニングモデルを提案する。
このモデルは,CARLAシミュレータ上で,現実の環境を模倣するために,通常の状況と異なる天候のシナリオを用いて評価する。
論文 参考訳(メタデータ) (2022-04-12T03:57:01Z) - Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文 参考訳(メタデータ) (2021-04-19T11:48:13Z) - A Driving Behavior Recognition Model with Bi-LSTM and Multi-Scale CNN [59.57221522897815]
運転行動認識のための軌道情報に基づくニューラルネットワークモデルを提案する。
提案手法を公開BLVDデータセット上で評価し,満足な性能を実現する。
論文 参考訳(メタデータ) (2021-03-01T06:47:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。