Fugu-MT 論文翻訳(概要): LeTFuser: Light-weight End-to-end Transformer-Based Sensor Fusion for Autonomous Driving with Multi-Task Learning

論文の概要: LeTFuser: Light-weight End-to-end Transformer-Based Sensor Fusion for Autonomous Driving with Multi-Task Learning

arxiv url: http://arxiv.org/abs/2310.13135v1
Date: Thu, 19 Oct 2023 20:09:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 01:29:21.657714
Title: LeTFuser: Light-weight End-to-end Transformer-Based Sensor Fusion for Autonomous Driving with Multi-Task Learning
Title（参考訳）: LeTFuser:マルチタスク学習による自律運転のための軽量エンドツーエンドトランスフォーマーベースセンサフュージョン
Authors: Pedram Agand, Mohammad Mahdavian, Manolis Savva, Mo Chen
Abstract要約: 複数のRGB-Dカメラ表現を融合するトランスフォーマーベースのアルゴリズムを提案する。認識と制御を同時に行うためには,マルチタスク学習を利用する。
参考スコア（独自算出の注目度）: 16.241116794114525
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In end-to-end autonomous driving, the utilization of existing sensor fusion techniques for imitation learning proves inadequate in challenging situations that involve numerous dynamic agents. To address this issue, we introduce LeTFuser, a transformer-based algorithm for fusing multiple RGB-D camera representations. To perform perception and control tasks simultaneously, we utilize multi-task learning. Our model comprises of two modules, the first being the perception module that is responsible for encoding the observation data obtained from the RGB-D cameras. It carries out tasks such as semantic segmentation, semantic depth cloud mapping (SDC), and traffic light state recognition. Our approach employs the Convolutional vision Transformer (CvT) \cite{wu2021cvt} to better extract and fuse features from multiple RGB cameras due to local and global feature extraction capability of convolution and transformer modules, respectively. Following this, the control module undertakes the decoding of the encoded characteristics together with supplementary data, comprising a rough simulator for static and dynamic environments, as well as various measurements, in order to anticipate the waypoints associated with a latent feature space. We use two methods to process these outputs and generate the vehicular controls (e.g. steering, throttle, and brake) levels. The first method uses a PID algorithm to follow the waypoints on the fly, whereas the second one directly predicts the control policy using the measurement features and environmental state. We evaluate the model and conduct a comparative analysis with recent models on the CARLA simulator using various scenarios, ranging from normal to adversarial conditions, to simulate real-world scenarios. Our code is available at \url{https://github.com/pagand/e2etransfuser/tree/cvpr-w} to facilitate future studies.
Abstract（参考訳）: エンド・ツー・エンドの自律運転において、既存のセンサー融合技術を利用した模倣学習は、多数の動的エージェントを含む困難な状況において不十分であることを示す。この問題に対処するために,複数のRGB-Dカメラ表現を融合するトランスフォーマーベースのアルゴリズムであるLeTFuserを紹介する。認識と制御を同時に行うためには,マルチタスク学習を利用する。本モデルは,RGB-Dカメラから得られた観測データを符号化する知覚モジュールである2つのモジュールから構成される。セマンティックセグメンテーション、セマンティック深度クラウドマッピング(sdc)、トラフィックライト状態認識などのタスクを実行する。コンボリューションビジョントランスフォーマー (cvt) \cite{wu2021cvt} を用いて, コンボリューションとトランスフォーマーモジュールの局所的およびグローバル的特徴抽出能力により, 複数のrgbカメラから特徴を抽出・融合する手法を提案する。これに続いて、制御モジュールは、遅延特徴空間に関連するウェイポイントを予測するために、静的および動的環境のための粗いシミュレータと様々な測定を含む補足データとともに符号化された特性の復号を行う。これらの出力を2つの方法で処理し、車両の制御レベル(ステアリング、スロットル、ブレーキなど)を生成する。第1の方法は、PIDアルゴリズムを用いてハエの進路を追従する一方、第2の方法は、計測特性と環境状態を用いて制御ポリシーを直接予測する。実世界のシナリオをシミュレーションするために,本モデルを評価し,CARLAシミュレータを用いた最近のモデルとの比較分析を行った。私たちのコードは、将来の研究を促進するために、 \url{https://github.com/pagand/e2etransfuser/tree/cvpr-w}で利用可能です。

関連論文リスト

Inverse RL Scene Dynamics Learning for Nonlinear Predictive Control in Autonomous Vehicles [0.0]
本稿では,自律ナビゲーションのための深層学習に基づくScene Dynamics(DL-NMPC-SD)手法を提案する。 DL-NMPC-SDは、時間範囲センシング情報から学習したシーンダイナミクスモデルと組み合わせて、アプリオリ名車モデルを使用する。
論文参考訳（メタデータ） (2025-04-02T03:46:37Z)
Diverse Controllable Diffusion Policy with Signal Temporal Logic [13.154661571539577]
信号テンポラル論理(STL)と拡散モデルを用いて、制御可能で多様でルール対応のポリシーを学習する。閉ループ試験では,本手法は最も多様性が高く,規則満足度が高く,衝突率も低い。ヒトとロボットの遭遇シナリオに関するケーススタディは、我々のアプローチが多様かつ閉軌道の軌道を生成できることを示している。
論文参考訳（メタデータ） (2025-03-04T18:59:00Z)
SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文参考訳（メタデータ） (2025-02-28T21:53:47Z)
Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文参考訳（メタデータ） (2023-12-17T05:27:31Z)
Tactics2D: A Highly Modular and Extensible Simulator for Driving Decision-making [24.795867304772404]
既存のシミュレータは、様々なシナリオや、交通参加者のためのインタラクティブな振る舞いモデルで不足することが多い。 Tactics2Dは、道路要素、交通規制、行動モデル、車両の物理シミュレーション、イベント検出機構を含む、交通シナリオ構築へのモジュラーアプローチを採用する。ユーザは、パブリックデータセットとユーザによる実世界のデータの両方を活用することで、さまざまなシナリオで意思決定モデルを駆動するパフォーマンスを効果的に評価できる。
論文参考訳（メタデータ） (2023-11-18T12:31:34Z)
Drive Anywhere: Generalizable End-to-end Autonomous Driving with Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文参考訳（メタデータ） (2023-10-26T17:56:35Z)
M$^2$DAR: Multi-View Multi-Scale Driver Action Recognition with Vision Transformer [5.082919518353888]
本稿では,自然主義的運転行動認識と動画のローカライゼーションのためのマルチビュー・マルチスケールフレームワークを提案する。本システムでは,マルチスケールトランスフォーマーに基づく動作認識ネットワークを特徴とし,頑健な階層表現を学習する。
論文参考訳（メタデータ） (2023-05-13T02:38:15Z)
PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。 2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文参考訳（メタデータ） (2022-10-12T04:11:48Z)
Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。 5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文参考訳（メタデータ） (2022-06-07T08:35:41Z)
Fully End-to-end Autonomous Driving with Semantic Depth Cloud Mapping and Multi-Agent [2.512827436728378]
本稿では,エンド・ツー・エンドとマルチタスクの学習方法を用いて学習した新しいディープラーニングモデルを提案する。このモデルは,CARLAシミュレータ上で,現実の環境を模倣するために,通常の状況と異なる天候のシナリオを用いて評価する。
論文参考訳（メタデータ） (2022-04-12T03:57:01Z)
Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文参考訳（メタデータ） (2021-04-19T11:48:13Z)
A Driving Behavior Recognition Model with Bi-LSTM and Multi-Scale CNN [59.57221522897815]
運転行動認識のための軌道情報に基づくニューラルネットワークモデルを提案する。提案手法を公開BLVDデータセット上で評価し,満足な性能を実現する。
論文参考訳（メタデータ） (2021-03-01T06:47:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。