Fugu-MT 論文翻訳(概要): FusionAD: Multi-modality Fusion for Prediction and Planning Tasks of Autonomous Driving

論文の概要: FusionAD: Multi-modality Fusion for Prediction and Planning Tasks of Autonomous Driving

arxiv url: http://arxiv.org/abs/2308.01006v4
Date: Mon, 14 Aug 2023 08:28:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-15 18:53:16.773554
Title: FusionAD: Multi-modality Fusion for Prediction and Planning Tasks of Autonomous Driving
Title（参考訳）: fusionad: 自動運転の予測と計画タスクのためのマルチモダリティ融合
Authors: Tengju Ye, Wei Jing, Chunyong Hu, Shikun Huang, Lingping Gao, Fangzhen Li, Jingke Wang, Ke Guo, Wencong Xiao, Weibo Mao, Hang Zheng, Kun Li, Junbo Chen, Kaicheng Yu
Abstract要約: FusionADは、最も重要なセンサー、カメラ、LiDARからの情報を融合する最初の統合フレームワークです。カメラベースのエンドツーエンドUniADに対して、FMSと呼ばれるモダリティ対応の予測ステータス計画モジュールを融合支援する手法を確立する。我々は、一般的に使用されているベンチマークnuのデータセット、我々の最先端性能、検出や追跡などの認識タスクにおける平均15%のベースライン、占有率の10%の予測精度、予測誤差の0.708から0.389の削減、衝突率の0.31%の削減など、幅広い実験を行った。
参考スコア（独自算出の注目度）: 20.037562671813
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Building a multi-modality multi-task neural network toward accurate and robust performance is a de-facto standard in perception task of autonomous driving. However, leveraging such data from multiple sensors to jointly optimize the prediction and planning tasks remains largely unexplored. In this paper, we present FusionAD, to the best of our knowledge, the first unified framework that fuse the information from two most critical sensors, camera and LiDAR, goes beyond perception task. Concretely, we first build a transformer based multi-modality fusion network to effectively produce fusion based features. In constrast to camera-based end-to-end method UniAD, we then establish a fusion aided modality-aware prediction and status-aware planning modules, dubbed FMSPnP that take advantages of multi-modality features. We conduct extensive experiments on commonly used benchmark nuScenes dataset, our FusionAD achieves state-of-the-art performance and surpassing baselines on average 15% on perception tasks like detection and tracking, 10% on occupancy prediction accuracy, reducing prediction error from 0.708 to 0.389 in ADE score and reduces the collision rate from 0.31% to only 0.12%.
Abstract（参考訳）: 高精度でロバストなパフォーマンスに向けたマルチモダリティマルチタスクニューラルネットワークの構築は、自動運転の知覚タスクにおけるデファクトスタンダードである。しかし、複数のセンサからのそのようなデータを活用して予測と計画タスクを共同で最適化することは、ほとんど未検討のままである。本稿では、FusionADについて、私たちの知る限りでは、カメラとLiDARの2つの重要なセンサーからの情報を融合する最初の統合フレームワークであるFusionADについて述べる。具体的には、最初にトランスフォーマーベースのマルチモダリティフュージョンネットワークを構築し、フュージョンベースの機能を効果的に生み出す。カメラベースのエンドツーエンド手法であるUniADに対して、マルチモーダル特徴の利点を生かしたFMSPnPと呼ばれるモダリティ対応予測とステータス対応計画モジュールを融合して構築する。一般的なベンチマークnuscenesデータセットを広範囲に実験した結果,fusionadは最先端のパフォーマンスを達成し,検出や追跡などの知覚タスクでは平均15%,占有予測精度では10%,adeスコアでは0.708から0.389に低下し,衝突率を0.31%から0.12%に低減した。

関連論文リスト

PRISM: Performer RS-IMLE for Single-pass Multisensory Imitation Learning [51.24484551729328]
PRISMは,IMLEのバッチ・グロバル・リジェクション・サンプリングに基づく単一パスポリシーである。 PRISMは、Performerアーキテクチャを用いた線形アテンション発生器と時間的マルチセンサエンコーダを結合する。 7-DoFアームD1を搭載したUnitree Go2を用いたロコマニピュレーションやUR5マニピュレータを用いたテーブルトップ操作など,PRISMの有効性を実証する。
論文参考訳（メタデータ） (2026-02-02T17:57:37Z)
FedAPM: Federated Learning via ADMM with Partial Model Personalization [12.72555825043549]
FL(Federated Learning)では、異なるデバイスからのデータセットが独立であり、同じ分散(すなわち、同じ分散)であるという仮定は、ユーザ差によって保持されないことが多い。本稿では、FedAPMと呼ばれる乗算器の交互方向法(ADMM)に基づくFLフレームワークを提案し、クライアントのドリフトを緩和する。
論文参考訳（メタデータ） (2025-06-05T06:38:29Z)
Multimodal Sentiment Analysis on CMU-MOSEI Dataset using Transformer-based Models [0.0]
本研究は,CMU-MOSEIデータセットを用いたマルチモーダル感情分析を行う。我々は、テキスト、オーディオ、視覚のモダリティを統合するために、早期融合を伴うトランスフォーマーベースのモデルを使用する。このモデルは、97.87%の7クラス精度と0.9682 F1スコアで高い性能を達成している。
論文参考訳（メタデータ） (2025-05-09T15:10:57Z)
RGB-Event Fusion with Self-Attention for Collision Prediction [9.268995547414777]
本稿では,動的物体を持つ無人航空機の時間と衝突位置を予測するニューラルネットワークフレームワークを提案する。提案したアーキテクチャは、2つの異なるエンコーダ分岐で構成されており、1つはモダリティ、次に自己アテンションによる融合により予測精度が向上する。核融合モデルでは, 平均で1%, 0.5mを超える距離で10%の精度で予測精度が向上するが, メモリで+71%, FLOPで+105%のコストがかかることがわかった。
論文参考訳（メタデータ） (2025-05-07T09:03:26Z)
Data-Driven Approximation of Binary-State Network Reliability Function: Algorithm Selection and Reliability Thresholds for Large-Scale Systems [0.08158530638728499]
本研究は,3つの信頼性体制(0.0-1.0),高信頼性(0.9-1.0),超高信頼性(0.99-1.0)にわたる20の機械学習手法を評価する。本研究では,円弧の信頼性が0.9以下である大規模ネットワークが,ほぼ均一なシステムの信頼性を示し,計算の単純化を実現していることを示す。
論文参考訳（メタデータ） (2025-03-16T13:51:59Z)
ZIA: A Theoretical Framework for Zero-Input AI [0.0]
Zero-Input AI(ZIA)は、明示的なユーザコマンドを使わずに、積極的な意図予測を可能にすることによって、人間とコンピュータのインタラクションのための新しいフレームワークを導入している。リアルタイム推論のためのマルチモーダルモデルに、視線追跡、バイオシグナル(EEG、心拍数)、コンテキストデータ(時間、位置、使用履歴)を統合する。 ZIAは、アクセシビリティ、ヘルスケア、消費者アプリケーションのためのスケーラブルでプライバシ保護フレームワークを提供し、AIを予測知性に向けて前進させる。
論文参考訳（メタデータ） (2025-02-22T07:42:05Z)
End-to-End Predictive Planner for Autonomous Driving with Consistency Models [5.966385886363771]
軌道予測と計画は、自動運転車が動的環境において安全かつ効率的に航行するための基本的な要素である。伝統的に、これらのコンポーネントは、しばしば別々のモジュールとして扱われ、インタラクティブな計画を実行する能力を制限する。単一の一貫性モデルで予測と計画を統合する,統一的でデータ駆動のフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-12T00:26:01Z)
Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness [65.01625761120924]
我々は、貴重なサンプルはタスクを知らせ、非冗長であり、サンプル分布(つまり、外れ値ではない)を表すべきであると論じる。我々は、効果的なデータ選択のために、インフォーマル性、ユニーク性、代表性という3つの重要な原則を活用するコラボレーティブフレームワーク、DataTailorを提案する。様々なベンチマークの実験により、DataTailorはデータの15%でフルデータの微調整のパフォーマンスの100.8%を達成している。
論文参考訳（メタデータ） (2024-12-09T08:36:10Z)
Transforming In-Vehicle Network Intrusion Detection: VAE-based Knowledge Distillation Meets Explainable AI [0.0]
本稿では,変分オートエンコーダ(VAE)に基づく知識蒸留手法を用いて,KD-XVAEと呼ばれる高度な侵入検知システムを提案する。本モデルでは,1669個のパラメータで処理し,バッチ毎に0.3msの推論時間を実現することにより,複雑性を大幅に低減する。
論文参考訳（メタデータ） (2024-10-11T17:57:16Z)
Steering Prediction via a Multi-Sensor System for Autonomous Racing [45.70482345703285]
伝統的に、レーシングカーは主要な視覚系として2D LiDARに依存している。本研究では,イベントカメラと既存システムの統合について検討し,時間情報の拡張について述べる。私たちの目標は、2D LiDARデータをイベントデータをエンドツーエンドの学習フレームワークに融合させることです。
論文参考訳（メタデータ） (2024-09-28T13:58:24Z)
Foundation Models for Structural Health Monitoring [17.37816294594306]
本稿では,トランスフォーマーニューラルネットワークをMasked Auto-Encoderアーキテクチャを用いて,構造的健康モニタリングのための基礎モデルとして初めて利用することを提案する。自己教師付き事前学習を通じて、複数の大規模データセットから一般化可能な表現を学習する能力を実証する。本研究は,3つの運用用インダクトのデータを用いた基礎モデルの有効性を示す。
論文参考訳（メタデータ） (2024-04-03T13:32:44Z)
An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文参考訳（メタデータ） (2023-04-28T15:43:21Z)
Collaborative Uncertainty Benefits Multi-Agent Multi-Modal Trajectory Forecasting [61.02295959343446]
この研究はまず、相互作用モジュールから生じる不確実性をモデル化する新しい概念であるコラボレーティブ不確実性(CU)を提案する。我々は、回帰と不確実性推定の両方を行うために、元の置換同変不確かさ推定器を備えた一般的なCU対応回帰フレームワークを構築した。提案するフレームワークを,プラグインモジュールとして現在のSOTAマルチエージェント軌道予測システムに適用する。
論文参考訳（メタデータ） (2022-07-11T21:17:41Z)
Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。我々は、最先端の核融合法を初めてベンチマークした。
論文参考訳（メタデータ） (2022-05-30T09:35:37Z)
Transforming Model Prediction for Tracking [109.08417327309937]
トランスフォーマーは、誘導バイアスの少ないグローバルな関係を捉え、より強力なターゲットモデルの予測を学ぶことができる。提案したトラッカーをエンドツーエンドにトレーニングし、複数のトラッカーデータセットに関する総合的な実験を行うことで、その性能を検証する。我々のトラッカーは3つのベンチマークで新しい技術状態を設定し、挑戦的なLaSOTデータセットで68.5%のAUCを達成した。
論文参考訳（メタデータ） (2022-03-21T17:59:40Z)
On Efficient Uncertainty Estimation for Resource-Constrained Mobile Applications [0.0]
予測の不確実性は、モデル予測を補完し、下流タスクの機能を改善します。 Axolotlフレームワークを用いてモンテカルロ・ドロップアウト(MCDO)モデルを構築することでこの問題に対処する。我々は,(1)CIFAR10データセットを用いた多クラス分類タスク,(2)より複雑な人体セグメンテーションタスクについて実験を行った。
論文参考訳（メタデータ） (2021-11-11T22:24:15Z)
EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文参考訳（メタデータ） (2021-06-21T10:47:26Z)
Efficient and Robust LiDAR-Based End-to-End Navigation [132.52661670308606]
我々は,LiDARをベースとした効率的なエンドツーエンドナビゲーションフレームワークを提案する。本稿では,スパース畳み込みカーネル最適化とハードウェア対応モデル設計に基づくFast-LiDARNetを提案する。次に,単一の前方通過のみから予測の不確かさを直接推定するハイブリッド・エビデンシャル・フュージョンを提案する。
論文参考訳（メタデータ） (2021-05-20T17:52:37Z)
Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文参考訳（メタデータ） (2021-04-07T04:03:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。