論文の概要: Condition-Aware Multimodal Fusion for Robust Semantic Perception of Driving Scenes
- arxiv url: http://arxiv.org/abs/2410.10791v1
- Date: Mon, 14 Oct 2024 17:56:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 19:34:54.151746
- Title: Condition-Aware Multimodal Fusion for Robust Semantic Perception of Driving Scenes
- Title(参考訳): 運転シーンのロバストなセマンティック知覚のための条件付きマルチモーダルフュージョン
- Authors: Tim Broedermann, Christos Sakaridis, Yuqian Fu, Luc Van Gool,
- Abstract要約: 本研究では,運転シーンのロバストな意味認識のための条件対応型マルチモーダル融合手法を提案する。
CAFuserは、RGBカメラ入力を用いて環境条件を分類し、複数のセンサの融合を誘導するコンディショントークンを生成する。
MUSESデータセットでは,マルチモーダルパノプティクスセグメンテーションの59.7 PQ,セマンティックセグメンテーションの78.2 mIoU,公開ベンチマークの1位にランクインした。
- 参考スコア(独自算出の注目度): 56.52618054240197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging multiple sensors is crucial for robust semantic perception in autonomous driving, as each sensor type has complementary strengths and weaknesses. However, existing sensor fusion methods often treat sensors uniformly across all conditions, leading to suboptimal performance. By contrast, we propose a novel, condition-aware multimodal fusion approach for robust semantic perception of driving scenes. Our method, CAFuser uses an RGB camera input to classify environmental conditions and generate a Condition Token that guides the fusion of multiple sensor modalities. We further newly introduce modality-specific feature adapters to align diverse sensor inputs into a shared latent space, enabling efficient integration with a single and shared pre-trained backbone. By dynamically adapting sensor fusion based on the actual condition, our model significantly improves robustness and accuracy, especially in adverse-condition scenarios. We set the new state of the art with CAFuser on the MUSES dataset with 59.7 PQ for multimodal panoptic segmentation and 78.2 mIoU for semantic segmentation, ranking first on the public benchmarks.
- Abstract(参考訳): 複数のセンサーを活用することは、自律運転における堅牢なセマンティック認識に不可欠であり、それぞれのセンサータイプは相補的な強度と弱点を持っている。
しかし、既存のセンサー融合法は、全ての条件でセンサを均一に処理し、最適以下の性能をもたらすことがよくある。
対照的に、運転シーンのロバストな意味認識のための条件対応マルチモーダル融合手法を提案する。
CAFuserは、RGBカメラ入力を用いて環境条件を分類し、複数のセンサの融合を誘導するコンディショントークンを生成する。
さらに,多種多様なセンサ入力を共有潜在空間に整列させ,単一かつ共有された事前学習されたバックボーンとの効率的な統合を実現するために,モダリティ特化機能アダプタを新たに導入する。
実際の条件に基づいてセンサフュージョンを動的に適応させることで、特に悪条件シナリオにおいて、ロバスト性と精度が大幅に向上する。
59.7 PQ,78.2 mIoU,セマンティックセマンティクスセマンティクスセマンティクスセマンティクスセマンティクスセマンティクスセマンティクスをMUSESデータセット上に設定し,公開ベンチマークで上位にランク付けした。
関連論文リスト
- Graph-Based Multi-Modal Sensor Fusion for Autonomous Driving [3.770103075126785]
本稿では,グラフに基づく状態表現の開発に焦点をあてた,マルチモーダルセンサ融合に対する新しいアプローチを提案する。
本稿では,マルチモーダルグラフを融合する最初のオンライン状態推定手法であるSensor-Agnostic Graph-Aware Kalman Filterを提案する。
提案手法の有効性を,合成および実世界の運転データセットを用いた広範囲な実験により検証した。
論文 参考訳(メタデータ) (2024-11-06T06:58:17Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Virtual Fusion with Contrastive Learning for Single Sensor-based
Activity Recognition [5.225544155289783]
各種センサはHAR(Human Activity Recognition)に使用することができる。
1つのセンサーがユーザーの動きをその視点で完全に観察できない場合があり、誤った予測を引き起こす。
トレーニング中に複数のタイム同期センサーからラベル付けされていないデータを活用できる新しい方法であるVirtual Fusionを提案する。
論文 参考訳(メタデータ) (2023-12-01T17:03:27Z) - Safety-Enhanced Autonomous Driving Using Interpretable Sensor Fusion
Transformer [28.15612357340141]
我々は、InterFuser(Interpretable Sensor Fusion Transformer)という安全強化型自律走行フレームワークを提案する。
我々は、総合的なシーン理解と対向事象検出を実現するために、マルチモーダル・マルチビューセンサーからの情報を処理し、融合する。
私たちのフレームワークは、よりセマンティクスを提供し、安全なセット内のアクションをよりよく制約するために利用されます。
論文 参考訳(メタデータ) (2022-07-28T11:36:21Z) - SHIFT: A Synthetic Driving Dataset for Continuous Multi-Task Domain
Adaptation [152.60469768559878]
ShiFTは、自動運転のための最大規模のマルチタスク合成データセットである。
曇り、雨と霧の強さ、昼の時間、車と歩行者の密度を個別に連続的に変化させる。
私たちのデータセットとベンチマークツールキットはwww.vis.xyz/shift.comで公開されています。
論文 参考訳(メタデータ) (2022-06-16T17:59:52Z) - SensiX: A Platform for Collaborative Machine Learning on the Edge [69.1412199244903]
センサデータとセンサモデルの間に留まるパーソナルエッジプラットフォームであるSensiXを紹介する。
動作および音声に基づくマルチデバイスセンシングシステムの開発において,その有効性を示す。
評価の結果,SensiXは3mWのオーバヘッドを犠牲にして,全体の精度が7~13%向上し,環境のダイナミクスが最大30%向上することがわかった。
論文 参考訳(メタデータ) (2020-12-04T23:06:56Z) - Shared Cross-Modal Trajectory Prediction for Autonomous Driving [24.07872495811019]
本稿では,複数入力モダリティの利用のメリットを活かしたクロスモーダルな埋め込みフレームワークを提案する。
2つのベンチマーク駆動データセットを用いて,提案手法の有効性を示すため,広範囲な評価を行った。
論文 参考訳(メタデータ) (2020-11-15T07:18:50Z) - Deep Soft Procrustes for Markerless Volumetric Sensor Alignment [81.13055566952221]
本研究では、より堅牢なマルチセンサ空間アライメントを実現するために、マーカーレスデータ駆動対応推定を改善する。
我々は、幾何学的制約を終末的に典型的なセグメンテーションベースモデルに組み込み、対象のポーズ推定タスクと中間密な分類タスクをブリッジする。
実験により,マーカーベースの手法で同様の結果が得られ,マーカーレス手法よりも優れ,またキャリブレーション構造のポーズ変動にも頑健であることがわかった。
論文 参考訳(メタデータ) (2020-03-23T10:51:32Z) - Learning Selective Sensor Fusion for States Estimation [47.76590539558037]
本稿では,エンド・ツー・エンドのセンサ・フュージョン・モジュールであるSelectFusionを提案する。
予測中、ネットワークは異なるセンサーモードから潜伏する特徴の信頼性を評価することができる。
我々は、公開データセットと漸進的に劣化したデータセットの両方において、すべての融合戦略を広範囲に評価する。
論文 参考訳(メタデータ) (2019-12-30T20:25:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。