論文の概要: Cognitive TransFuser: Semantics-guided Transformer-based Sensor Fusion
for Improved Waypoint Prediction
- arxiv url: http://arxiv.org/abs/2308.02126v2
- Date: Wed, 31 Jan 2024 10:36:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 17:52:01.823151
- Title: Cognitive TransFuser: Semantics-guided Transformer-based Sensor Fusion
for Improved Waypoint Prediction
- Title(参考訳): 認知的トランスフューザ: 意味論的誘導型トランスフォーマーを用いたセンサフュージョン
- Authors: Hwan-Soo Choi, Jongoh Jeong, Young Hoo Cho, Kuk-Jin Yoon, and
Jong-Hwan Kim
- Abstract要約: RGB-LIDARベースのマルチタスク機能融合ネットワークであるCognitive TransFuserは、安全で完全な道路ナビゲーションのために、ベースラインネットワークを大幅に拡張し、超える。
提案したネットワークをCown05 Short と Town05 Long Benchmarkで広範囲な実験により検証し,44.2 FPSのリアルタイム推論時間を実現した。
- 参考スコア(独自算出の注目度): 38.971222477695214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sensor fusion approaches for intelligent self-driving agents remain key to
driving scene understanding given visual global contexts acquired from input
sensors. Specifically, for the local waypoint prediction task, single-modality
networks are still limited by strong dependency on the sensitivity of the input
sensor, and thus recent works therefore promote the use of multiple sensors in
fusion in feature level in practice. While it is well known that multiple data
modalities encourage mutual contextual exchange, it requires global 3D scene
understanding in real-time with minimal computation upon deployment to
practical driving scenarios, thereby placing greater significance on the
training strategy given a limited number of practically usable sensors. In this
light, we exploit carefully selected auxiliary tasks that are highly correlated
with the target task of interest (e.g., traffic light recognition and semantic
segmentation) by fusing auxiliary task features and also using auxiliary heads
for waypoint prediction based on imitation learning. Our RGB-LIDAR-based
multi-task feature fusion network, coined Cognitive TransFuser, augments and
exceeds the baseline network by a significant margin for safer and more
complete road navigation in the CARLA simulator. We validate the proposed
network on the Town05 Short and Town05 Long Benchmark through extensive
experiments, achieving up to 44.2 FPS real-time inference time.
- Abstract(参考訳): インテリジェントな自動運転エージェントのためのセンサー融合アプローチは、入力センサーから取得した視覚的なグローバルコンテキストを考えると、シーン理解の鍵である。
特に、ローカルな waypoint 予測タスクでは、シングルモダリティネットワークは入力センサの感度に強く依存しているため、近年の研究では、機能レベルでの融合における複数のセンサの使用が促進されている。
複数のデータモダリティが相互コンテキスト交換を促進することはよく知られているが、実際の運転シナリオに展開する際には最小限の計算量でリアルタイムにグローバルな3Dシーン理解が必要である。
本報では,目的とするタスク(例えば,交通信号の認識やセマンティックセグメンテーション)と高い相関性を持つ,慎重に選択された補助タスクを,補助タスクの特徴を融合させ,模倣学習に基づくウェイポイント予測に補助ヘッドを用いる。
我々のRGB-LIDARベースのマルチタスク機能融合ネットワークであるCognitive TransFuserは、CARLAシミュレータにおいてより安全で完全な道路ナビゲーションのために、ベースラインネットワークを大幅に拡張し、超える。
提案したネットワークをCown05 Short と Town05 Long Benchmarkで広範囲な実験により検証し,44.2 FPSのリアルタイム推論時間を実現する。
関連論文リスト
- Semantic Communication for Cooperative Perception using HARQ [51.148203799109304]
我々は重要セマンティック情報を抽出するために重要地図を活用し、協調的な知覚セマンティックコミュニケーションフレームワークを導入する。
周波数分割多重化(OFDM)とチャネル推定と等化戦略を併用して,時間変化によるマルチパスフェーディングによる課題に対処する。
我々は,ハイブリッド自動繰り返し要求(HARQ)の精神において,我々の意味コミュニケーションフレームワークと統合された新しい意味エラー検出手法を提案する。
論文 参考訳(メタデータ) (2024-08-29T08:53:26Z) - Deep Learning-Based Robust Multi-Object Tracking via Fusion of mmWave Radar and Camera Sensors [6.166992288822812]
複雑なトラフィックシナリオを通じて、より安全で効率的なナビゲーションを実現する上で、マルチオブジェクトトラッキングは重要な役割を果たす。
本稿では,自律走行システムにおける複数物体追跡の精度とロバスト性を高めるために,レーダデータとカメラデータを統合した新しいディープラーニング方式を提案する。
論文 参考訳(メタデータ) (2024-07-10T21:09:09Z) - Efficient Fusion and Task Guided Embedding for End-to-end Autonomous Driving [1.3149617027696827]
我々は,センサ融合と安全リスク予測の課題に対処するため,EfficientFuserというコンパクトで強力なソリューションを導入した。
CARLAシミュレーションプラットフォームで評価されたEfficientFuserは、パラメータの37.6%しか利用せず、顕著な効率性を示している。
安全スコアは、その有効性と、自律運転システムへの実用的展開の可能性を示す主要な安全性向上手法に近づいた。
論文 参考訳(メタデータ) (2024-07-03T07:45:58Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - Exploring Contextual Representation and Multi-Modality for End-to-End
Autonomous Driving [58.879758550901364]
最近の知覚システムは、センサー融合による空間理解を高めるが、しばしば完全な環境コンテキストを欠いている。
我々は,3台のカメラを統合し,人間の視野をエミュレートするフレームワークを導入し,トップダウンのバードアイビューセマンティックデータと組み合わせて文脈表現を強化する。
提案手法は, オープンループ設定において0.67mの変位誤差を達成し, nuScenesデータセットでは6.9%の精度で現在の手法を上回っている。
論文 参考訳(メタデータ) (2022-10-13T05:56:20Z) - Safety-Enhanced Autonomous Driving Using Interpretable Sensor Fusion
Transformer [28.15612357340141]
我々は、InterFuser(Interpretable Sensor Fusion Transformer)という安全強化型自律走行フレームワークを提案する。
我々は、総合的なシーン理解と対向事象検出を実現するために、マルチモーダル・マルチビューセンサーからの情報を処理し、融合する。
私たちのフレームワークは、よりセマンティクスを提供し、安全なセット内のアクションをよりよく制約するために利用されます。
論文 参考訳(メタデータ) (2022-07-28T11:36:21Z) - Bayesian Imitation Learning for End-to-End Mobile Manipulation [80.47771322489422]
RGB + 深度カメラのような追加のセンサー入力によるポリシーの強化は、ロボットの知覚能力を改善するための簡単なアプローチである。
畳み込みニューラルネットワークを正規化するために変分情報ボトルネックを用いることで、保持領域への一般化が向上することを示す。
提案手法は, シミュレーションと現実のギャップを埋めることと, RGBと奥行き変調をうまく融合できることを実証する。
論文 参考訳(メタデータ) (2022-02-15T17:38:30Z) - Plants Don't Walk on the Street: Common-Sense Reasoning for Reliable
Semantic Segmentation [0.7696728525672148]
我々は,交通シーンのオブジェクト間の関係を高レベルの抽象化で記述するために,部分的に設計され,部分的に学習されたルールセットを使用することを提案する。
これにより、低レベルのセンサー情報を消費する既存のディープニューラルネットワークを改善し、強化する。
論文 参考訳(メタデータ) (2021-04-19T12:51:06Z) - Lite-HDSeg: LiDAR Semantic Segmentation Using Lite Harmonic Dense
Convolutions [2.099922236065961]
完全3ドルのLiDAR点雲のセマンティックセグメンテーションのための,新しいリアルタイム畳み込みニューラルネットワークLite-HDSegを提案する。
提案手法は,リアルタイムに動作可能な意味セグメンテーション手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-16T04:54:57Z) - IntentNet: Learning to Predict Intention from Raw Sensor Data [86.74403297781039]
本論文では,LiDARセンサが生成する3次元点群と,環境の動的なマップの両方を利用するワンステージ検出器と予測器を開発した。
当社のマルチタスクモデルは、それぞれの別々のモジュールよりも高い精度を実現し、計算を節約します。
論文 参考訳(メタデータ) (2021-01-20T00:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。