論文の概要: CAFuser: Condition-Aware Multimodal Fusion for Robust Semantic Perception of Driving Scenes
- arxiv url: http://arxiv.org/abs/2410.10791v2
- Date: Mon, 27 Jan 2025 13:45:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:50:58.768387
- Title: CAFuser: Condition-Aware Multimodal Fusion for Robust Semantic Perception of Driving Scenes
- Title(参考訳): CAFuser:運転シーンのロバストなセマンティック知覚のための条件対応マルチモーダルフュージョン
- Authors: Tim Broedermann, Christos Sakaridis, Yuqian Fu, Luc Van Gool,
- Abstract要約: 本研究では,運転シーンのロバストな意味認識のための条件対応型マルチモーダル融合手法を提案する。
CAFuserは、RGBカメラ入力を用いて環境条件を分類し、コンディショントークンを生成する。
我々のモデルは、特に悪条件シナリオにおいて、ロバスト性と精度を著しく向上させる。
- 参考スコア(独自算出の注目度): 56.52618054240197
- License:
- Abstract: Leveraging multiple sensors is crucial for robust semantic perception in autonomous driving, as each sensor type has complementary strengths and weaknesses. However, existing sensor fusion methods often treat sensors uniformly across all conditions, leading to suboptimal performance. By contrast, we propose a novel, condition-aware multimodal fusion approach for robust semantic perception of driving scenes. Our method, CAFuser, uses an RGB camera input to classify environmental conditions and generate a Condition Token that guides the fusion of multiple sensor modalities. We further newly introduce modality-specific feature adapters to align diverse sensor inputs into a shared latent space, enabling efficient integration with a single and shared pre-trained backbone. By dynamically adapting sensor fusion based on the actual condition, our model significantly improves robustness and accuracy, especially in adverse-condition scenarios. CAFuser ranks first on the public MUSES benchmarks, achieving 59.7 PQ for multimodal panoptic and 78.2 mIoU for semantic segmentation, and also sets the new state of the art on DeLiVER. The source code is publicly available at: https://github.com/timbroed/CAFuser.
- Abstract(参考訳): 複数のセンサーを活用することは、それぞれのセンサータイプが相補的な強度と弱点を持っているため、自律運転において堅牢なセマンティックな知覚に不可欠である。
しかしながら、既存のセンサー融合法は、全ての条件でセンサを均一に処理し、最適以下の性能をもたらすことがよくある。
対照的に、運転シーンのロバストな意味認識のための条件対応マルチモーダル融合手法を提案する。
CAFuserは、RGBカメラ入力を用いて環境条件を分類し、複数のセンサの融合を誘導するコンディショントークンを生成する。
さらに,多種多様なセンサ入力を共有潜在空間に整列させ,単一かつ共有された事前学習されたバックボーンとの効率的な統合を実現するために,モダリティ特化機能アダプタを新たに導入する。
実際の条件に基づいてセンサフュージョンを動的に適応させることで、特に悪条件シナリオにおいて、ロバスト性と精度が大幅に向上する。
CAFuserはMUSESベンチマークで第1位であり、マルチモーダル・パノプティクスで59.7 PQ、セマンティックセグメンテーションで78.2 mIoUを達成し、DeLiVERで新しい最先端を設定している。
ソースコードは、https://github.com/timbroed/CAFuser.comで公開されている。
関連論文リスト
- Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Virtual Fusion with Contrastive Learning for Single Sensor-based
Activity Recognition [5.225544155289783]
各種センサはHAR(Human Activity Recognition)に使用することができる。
1つのセンサーがユーザーの動きをその視点で完全に観察できない場合があり、誤った予測を引き起こす。
トレーニング中に複数のタイム同期センサーからラベル付けされていないデータを活用できる新しい方法であるVirtual Fusionを提案する。
論文 参考訳(メタデータ) (2023-12-01T17:03:27Z) - Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-05-12T18:08:51Z) - RMMDet: Road-Side Multitype and Multigroup Sensor Detection System for
Autonomous Driving [3.8917150802484994]
RMMDetは、自動運転のための道路側マルチタイプおよびマルチグループセンサー検出システムである。
ROSベースの仮想環境を用いて実環境をシミュレートする。
局所的なデータセットと実際のサンドテーブルフィールドを作成し、様々な実験を行う。
論文 参考訳(メタデータ) (2023-03-09T12:13:39Z) - Safety-Enhanced Autonomous Driving Using Interpretable Sensor Fusion
Transformer [28.15612357340141]
我々は、InterFuser(Interpretable Sensor Fusion Transformer)という安全強化型自律走行フレームワークを提案する。
我々は、総合的なシーン理解と対向事象検出を実現するために、マルチモーダル・マルチビューセンサーからの情報を処理し、融合する。
私たちのフレームワークは、よりセマンティクスを提供し、安全なセット内のアクションをよりよく制約するために利用されます。
論文 参考訳(メタデータ) (2022-07-28T11:36:21Z) - AFT-VO: Asynchronous Fusion Transformers for Multi-View Visual Odometry
Estimation [39.351088248776435]
複数のセンサからVOを推定する新しいトランスフォーマーベースのセンサ融合アーキテクチャであるAFT-VOを提案する。
本フレームワークは,非同期マルチビューカメラからの予測と,異なる情報源からの計測の時間的差を考慮に入れたものである。
実験により,VO推定のための多視点融合により,頑健かつ正確な軌道が得られ,難易度と照明条件の両方において高い性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-06-26T19:29:08Z) - HydraFusion: Context-Aware Selective Sensor Fusion for Robust and
Efficient Autonomous Vehicle Perception [9.975955132759385]
自律走行車(AV)の知覚を改善するために、カメラ、レーダー、ライダーセンサーからのセンサデータを融合する技術が提案されている。
既存の手法は、融合実装の剛性のため、困難な運転環境では不十分に堅牢である。
提案するHydraFusionは、現在の運転状況を特定し、センサの最良の組み合わせを融合する選択的なセンサー融合フレームワークである。
論文 参考訳(メタデータ) (2022-01-17T22:19:53Z) - Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。
我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。
このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文 参考訳(メタデータ) (2021-04-07T04:03:20Z) - Deep Soft Procrustes for Markerless Volumetric Sensor Alignment [81.13055566952221]
本研究では、より堅牢なマルチセンサ空間アライメントを実現するために、マーカーレスデータ駆動対応推定を改善する。
我々は、幾何学的制約を終末的に典型的なセグメンテーションベースモデルに組み込み、対象のポーズ推定タスクと中間密な分類タスクをブリッジする。
実験により,マーカーベースの手法で同様の結果が得られ,マーカーレス手法よりも優れ,またキャリブレーション構造のポーズ変動にも頑健であることがわかった。
論文 参考訳(メタデータ) (2020-03-23T10:51:32Z) - Learning Selective Sensor Fusion for States Estimation [47.76590539558037]
本稿では,エンド・ツー・エンドのセンサ・フュージョン・モジュールであるSelectFusionを提案する。
予測中、ネットワークは異なるセンサーモードから潜伏する特徴の信頼性を評価することができる。
我々は、公開データセットと漸進的に劣化したデータセットの両方において、すべての融合戦略を広範囲に評価する。
論文 参考訳(メタデータ) (2019-12-30T20:25:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。