論文の概要: Multi-modal Experts Network for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2009.08876v1
- Date: Fri, 18 Sep 2020 14:54:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 02:51:09.501460
- Title: Multi-modal Experts Network for Autonomous Driving
- Title(参考訳): 自動運転のためのマルチモーダルエキスパートネットワーク
- Authors: Shihong Fang, Anna Choromanska
- Abstract要約: センサデータからエンドツーエンドの学習は、自動運転の有望な結果を示している。
このようなネットワークをトレーニングし、デプロイすることは困難であり、考慮された環境では少なくとも2つの問題に直面している。
本稿では,新しいマルチモーダル・エキスパート・ネットワーク・アーキテクチャを提案し,マルチステージ・トレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 16.587968446342995
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: End-to-end learning from sensory data has shown promising results in
autonomous driving. While employing many sensors enhances world perception and
should lead to more robust and reliable behavior of autonomous vehicles, it is
challenging to train and deploy such network and at least two problems are
encountered in the considered setting. The first one is the increase of
computational complexity with the number of sensing devices. The other is the
phenomena of network overfitting to the simplest and most informative input. We
address both challenges with a novel, carefully tailored multi-modal experts
network architecture and propose a multi-stage training procedure. The network
contains a gating mechanism, which selects the most relevant input at each
inference time step using a mixed discrete-continuous policy. We demonstrate
the plausibility of the proposed approach on our 1/6 scale truck equipped with
three cameras and one LiDAR.
- Abstract(参考訳): センサデータからエンドツーエンドの学習は、自動運転の有望な結果を示している。
多くのセンサーを使用することで世界の認識が向上し、自動運転車のより堅牢で信頼性の高い行動につながるが、そのようなネットワークの訓練と展開は困難であり、考慮された環境では少なくとも2つの問題が発生する。
1つ目は、センシングデバイス数の増加による計算複雑性の増加である。
もう1つは、最も単純で最も情報的な入力にネットワークオーバーフィットする現象である。
両課題を,高度に調整されたマルチモーダルネットワークアーキテクチャで解決し,マルチステージトレーニング手法を提案する。
ネットワークは、混合離散連続ポリシーを用いて、各推論時間ステップで最も関連性の高い入力を選択するゲーティング機構を含む。
3台のカメラと1台のLiDARを備えた1/6スケールトラックに提案手法の有効性を示す。
関連論文リスト
- DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - M2DA: Multi-Modal Fusion Transformer Incorporating Driver Attention for Autonomous Driving [11.36165122994834]
自律運転にドライバ注意(M2DA)を組み込んだ多モード核融合トランスを提案する。
ドライバーの注意を取り入れることで、自動運転車に人間のようなシーン理解能力を付与し、重要な領域を正確に特定し、安全性を確保する。
論文 参考訳(メタデータ) (2024-03-19T08:54:52Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - End-to-end Autonomous Driving: Challenges and Frontiers [45.391430626264764]
エンドツーエンドの自動運転におけるモチベーション、ロードマップ、方法論、課題、今後のトレンドについて、270以上の論文を包括的に分析する。
マルチモダリティ、解釈可能性、因果的混乱、堅牢性、世界モデルなど、いくつかの重要な課題を掘り下げます。
基礎モデルと視覚前訓練の現在の進歩と、これらの技術をエンドツーエンドの駆動フレームワークに組み込む方法について論じる。
論文 参考訳(メタデータ) (2023-06-29T14:17:24Z) - Federated Deep Learning Meets Autonomous Vehicle Perception: Design and
Verification [168.67190934250868]
フェデレーテッド・ラーニング・パワード・コネクテッド・オートモービル(FLCAV)が提案されている。
FLCAVは通信とアノテーションのコストを削減しながらプライバシを保存する。
マルチステージトレーニングのためのネットワークリソースと道路センサのポーズを決定することは困難である。
論文 参考訳(メタデータ) (2022-06-03T23:55:45Z) - High Efficiency Pedestrian Crossing Prediction [0.0]
歩行者の横断意図を予測する最先端の手法は、入力として複数の情報ストリームに依存することが多い。
入力には歩行者のフレームのみのネットワークを導入する。
実験は、我々のモデルが常に優れたパフォーマンスを提供することを検証します。
論文 参考訳(メタデータ) (2022-04-04T21:37:57Z) - End-to-End Intersection Handling using Multi-Agent Deep Reinforcement
Learning [63.56464608571663]
交差点をナビゲートすることは、自動運転車にとって大きな課題の1つです。
本研究では,交通標識のみが提供された交差点をナビゲート可能なシステムの実装に着目する。
本研究では,時間ステップ毎に加速度と操舵角を予測するためのニューラルネットワークの訓練に用いる,モデルフリーの連続学習アルゴリズムを用いたマルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2021-04-28T07:54:40Z) - IntentNet: Learning to Predict Intention from Raw Sensor Data [86.74403297781039]
本論文では,LiDARセンサが生成する3次元点群と,環境の動的なマップの両方を利用するワンステージ検出器と予測器を開発した。
当社のマルチタスクモデルは、それぞれの別々のモジュールよりも高い精度を実現し、計算を節約します。
論文 参考訳(メタデータ) (2021-01-20T00:31:52Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。