論文の概要: Cognitive TransFuser: Semantics-guided Transformer-based Sensor Fusion
for Improved Waypoint Prediction
- arxiv url: http://arxiv.org/abs/2308.02126v2
- Date: Wed, 31 Jan 2024 10:36:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 17:52:01.823151
- Title: Cognitive TransFuser: Semantics-guided Transformer-based Sensor Fusion
for Improved Waypoint Prediction
- Title(参考訳): 認知的トランスフューザ: 意味論的誘導型トランスフォーマーを用いたセンサフュージョン
- Authors: Hwan-Soo Choi, Jongoh Jeong, Young Hoo Cho, Kuk-Jin Yoon, and
Jong-Hwan Kim
- Abstract要約: RGB-LIDARベースのマルチタスク機能融合ネットワークであるCognitive TransFuserは、安全で完全な道路ナビゲーションのために、ベースラインネットワークを大幅に拡張し、超える。
提案したネットワークをCown05 Short と Town05 Long Benchmarkで広範囲な実験により検証し,44.2 FPSのリアルタイム推論時間を実現した。
- 参考スコア(独自算出の注目度): 38.971222477695214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sensor fusion approaches for intelligent self-driving agents remain key to
driving scene understanding given visual global contexts acquired from input
sensors. Specifically, for the local waypoint prediction task, single-modality
networks are still limited by strong dependency on the sensitivity of the input
sensor, and thus recent works therefore promote the use of multiple sensors in
fusion in feature level in practice. While it is well known that multiple data
modalities encourage mutual contextual exchange, it requires global 3D scene
understanding in real-time with minimal computation upon deployment to
practical driving scenarios, thereby placing greater significance on the
training strategy given a limited number of practically usable sensors. In this
light, we exploit carefully selected auxiliary tasks that are highly correlated
with the target task of interest (e.g., traffic light recognition and semantic
segmentation) by fusing auxiliary task features and also using auxiliary heads
for waypoint prediction based on imitation learning. Our RGB-LIDAR-based
multi-task feature fusion network, coined Cognitive TransFuser, augments and
exceeds the baseline network by a significant margin for safer and more
complete road navigation in the CARLA simulator. We validate the proposed
network on the Town05 Short and Town05 Long Benchmark through extensive
experiments, achieving up to 44.2 FPS real-time inference time.
- Abstract(参考訳): インテリジェントな自動運転エージェントのためのセンサー融合アプローチは、入力センサーから取得した視覚的なグローバルコンテキストを考えると、シーン理解の鍵である。
特に、ローカルな waypoint 予測タスクでは、シングルモダリティネットワークは入力センサの感度に強く依存しているため、近年の研究では、機能レベルでの融合における複数のセンサの使用が促進されている。
複数のデータモダリティが相互コンテキスト交換を促進することはよく知られているが、実際の運転シナリオに展開する際には最小限の計算量でリアルタイムにグローバルな3Dシーン理解が必要である。
本報では,目的とするタスク(例えば,交通信号の認識やセマンティックセグメンテーション)と高い相関性を持つ,慎重に選択された補助タスクを,補助タスクの特徴を融合させ,模倣学習に基づくウェイポイント予測に補助ヘッドを用いる。
我々のRGB-LIDARベースのマルチタスク機能融合ネットワークであるCognitive TransFuserは、CARLAシミュレータにおいてより安全で完全な道路ナビゲーションのために、ベースラインネットワークを大幅に拡張し、超える。
提案したネットワークをCown05 Short と Town05 Long Benchmarkで広範囲な実験により検証し,44.2 FPSのリアルタイム推論時間を実現する。
関連論文リスト
- Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - MASS: Mobility-Aware Sensor Scheduling of Cooperative Perception for
Connected Automated Driving [19.66714697653504]
コラボレーティブ・パーセプション(CP)と呼ばれる新しいパラダイムが、コラボレーティブ・ビークル(CoV)からのセンサデータを共有することで救助にやってくる。
既存の方法は、近くの車両からの知覚の利得を予測するために、可視性マップのようなメタ情報交換に依存している。
CPの分散スケジューリングにおいて,スケジューリング中に学習する新しい手法を提案する。
提案したMASSアルゴリズムは,他の学習ベースアルゴリズムと比較して,最大4.2ポイントのリコール率向上を実現している。
論文 参考訳(メタデータ) (2023-02-25T09:03:05Z) - Exploring Contextual Representation and Multi-Modality for End-to-End
Autonomous Driving [58.879758550901364]
最近の知覚システムは、センサー融合による空間理解を高めるが、しばしば完全な環境コンテキストを欠いている。
我々は,3台のカメラを統合し,人間の視野をエミュレートするフレームワークを導入し,トップダウンのバードアイビューセマンティックデータと組み合わせて文脈表現を強化する。
提案手法は, オープンループ設定において0.67mの変位誤差を達成し, nuScenesデータセットでは6.9%の精度で現在の手法を上回っている。
論文 参考訳(メタデータ) (2022-10-13T05:56:20Z) - Safety-Enhanced Autonomous Driving Using Interpretable Sensor Fusion
Transformer [28.15612357340141]
我々は、InterFuser(Interpretable Sensor Fusion Transformer)という安全強化型自律走行フレームワークを提案する。
我々は、総合的なシーン理解と対向事象検出を実現するために、マルチモーダル・マルチビューセンサーからの情報を処理し、融合する。
私たちのフレームワークは、よりセマンティクスを提供し、安全なセット内のアクションをよりよく制約するために利用されます。
論文 参考訳(メタデータ) (2022-07-28T11:36:21Z) - Bayesian Imitation Learning for End-to-End Mobile Manipulation [80.47771322489422]
RGB + 深度カメラのような追加のセンサー入力によるポリシーの強化は、ロボットの知覚能力を改善するための簡単なアプローチである。
畳み込みニューラルネットワークを正規化するために変分情報ボトルネックを用いることで、保持領域への一般化が向上することを示す。
提案手法は, シミュレーションと現実のギャップを埋めることと, RGBと奥行き変調をうまく融合できることを実証する。
論文 参考訳(メタデータ) (2022-02-15T17:38:30Z) - CTIN: Robust Contextual Transformer Network for Inertial Navigation [20.86392550313961]
Inertial Navigation(CTIN)のための頑健なCon Transformerベースのネットワークを提案し,速度と軌道を正確に予測する。
CTINは非常に堅牢で、最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2021-12-03T19:57:34Z) - Plants Don't Walk on the Street: Common-Sense Reasoning for Reliable
Semantic Segmentation [0.7696728525672148]
我々は,交通シーンのオブジェクト間の関係を高レベルの抽象化で記述するために,部分的に設計され,部分的に学習されたルールセットを使用することを提案する。
これにより、低レベルのセンサー情報を消費する既存のディープニューラルネットワークを改善し、強化する。
論文 参考訳(メタデータ) (2021-04-19T12:51:06Z) - Lite-HDSeg: LiDAR Semantic Segmentation Using Lite Harmonic Dense
Convolutions [2.099922236065961]
完全3ドルのLiDAR点雲のセマンティックセグメンテーションのための,新しいリアルタイム畳み込みニューラルネットワークLite-HDSegを提案する。
提案手法は,リアルタイムに動作可能な意味セグメンテーション手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-16T04:54:57Z) - IntentNet: Learning to Predict Intention from Raw Sensor Data [86.74403297781039]
本論文では,LiDARセンサが生成する3次元点群と,環境の動的なマップの両方を利用するワンステージ検出器と予測器を開発した。
当社のマルチタスクモデルは、それぞれの別々のモジュールよりも高い精度を実現し、計算を節約します。
論文 参考訳(メタデータ) (2021-01-20T00:31:52Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。