論文の概要: DGFusion: Depth-Guided Sensor Fusion for Robust Semantic Perception
- arxiv url: http://arxiv.org/abs/2509.09828v1
- Date: Thu, 11 Sep 2025 20:03:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.911682
- Title: DGFusion: Depth-Guided Sensor Fusion for Robust Semantic Perception
- Title(参考訳): DGFusion:ロバスト・セマンティック・パーセプションのための奥行き誘導型センサフュージョン
- Authors: Tim Broedermannn, Christos Sakaridis, Luigi Piccinelli, Wim Abbeloos, Luc Van Gool,
- Abstract要約: 意味知覚に対する最先端のセンサー融合アプローチは、しばしば入力の空間的範囲にわたってセンサーデータを均一に扱う。
本稿では,深度情報の統合による条件認識融合を改良する,深度誘導型マルチモーダル融合法を提案する。
提案手法は,挑戦的なMUSESデータセットとDELIVERデータセット上で,最先端のパノプティクスとセマンティックセマンティックセグメンテーション性能を実現する。
- 参考スコア(独自算出の注目度): 57.77346327566903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust semantic perception for autonomous vehicles relies on effectively combining multiple sensors with complementary strengths and weaknesses. State-of-the-art sensor fusion approaches to semantic perception often treat sensor data uniformly across the spatial extent of the input, which hinders performance when faced with challenging conditions. By contrast, we propose a novel depth-guided multimodal fusion method that upgrades condition-aware fusion by integrating depth information. Our network, DGFusion, poses multimodal segmentation as a multi-task problem, utilizing the lidar measurements, which are typically available in outdoor sensor suites, both as one of the model's inputs and as ground truth for learning depth. Our corresponding auxiliary depth head helps to learn depth-aware features, which are encoded into spatially varying local depth tokens that condition our attentive cross-modal fusion. Together with a global condition token, these local depth tokens dynamically adapt sensor fusion to the spatially varying reliability of each sensor across the scene, which largely depends on depth. In addition, we propose a robust loss for our depth, which is essential for learning from lidar inputs that are typically sparse and noisy in adverse conditions. Our method achieves state-of-the-art panoptic and semantic segmentation performance on the challenging MUSES and DELIVER datasets. Code and models will be available at https://github.com/timbroed/DGFusion
- Abstract(参考訳): 自動運転車のロバストな意味認識は、複数のセンサーと補完的な強度と弱点を効果的に組み合わせることに依存している。
意味知覚に対する最先端のセンサー融合アプローチは、しばしば入力の空間的範囲にわたってセンサーデータを均一に扱う。
対照的に,深度情報を統合することで条件認識融合を改良する,深度誘導型マルチモーダル融合法を提案する。
我々のネットワークであるDGFusionは、マルチタスク問題としてマルチモーダルセグメンテーションを、モデル入力の1つとして、学習深度を学習するための基底真理として、通常、屋外センサースイートで利用できるライダー計測を利用する。
我々の補助深度ヘッドは、空間的に異なる局所深度トークンに符号化された深度認識の特徴を学習するのに役立ちます。
グローバルな条件トークンとともに、これらの局所深度トークンは、深度に大きく依存する各センサーの空間的に異なる信頼性にセンサ融合を動的に適応させる。
さらに, ライダー入力から学習するために必要となる, 悪条件下では, 希少でうるさい, うるさい, うるさい, うるさく, 難易度の高い, 難易度の高い, 難易度の高い, 難易度の高い, 難易度の高い, 難易度の高い, 難易度の高い, 難易度の高い学習方法を提案する。
提案手法は,挑戦的なMUSESデータセットとDELIVERデータセット上で,最先端のパノプティクスとセマンティックセマンティックセグメンテーション性能を実現する。
コードとモデルはhttps://github.com/timbroed/DGFusionで利用可能になる。
関連論文リスト
- DepthSeg: Depth prompting in remote sensing semantic segmentation [16.93010831616395]
本稿では,2次元リモートセマンティックセマンティックセグメンテーションフレームワーク(DepthSeg)について述べる。
2Dリモートセンシング画像から深度や高度を自動的にモデル化し、セマンティックセグメンテーションフレームワークに統合する。
LiuZhouデータセットの実験は、土地被覆マッピングタスクにおけるDepthSegフレームワークの利点を検証する。
論文 参考訳(メタデータ) (2025-06-17T10:27:59Z) - CAFuser: Condition-Aware Multimodal Fusion for Robust Semantic Perception of Driving Scenes [56.52618054240197]
本研究では,運転シーンのロバストな意味認識のための条件対応型マルチモーダル融合手法を提案する。
CAFuserは、RGBカメラ入力を用いて環境条件を分類し、コンディショントークンを生成する。
我々のモデルは、特に悪条件シナリオにおいて、ロバスト性と精度を著しく向上させる。
論文 参考訳(メタデータ) (2024-10-14T17:56:20Z) - Unveiling the Depths: A Multi-Modal Fusion Framework for Challenging
Scenarios [103.72094710263656]
本稿では,学習に基づくフレームワークを用いて,支配的モダリティの奥行きを識別し,統合する手法を提案する。
本稿では,信頼度予測ネットワークを操り,潜在電位深度領域を特定する信頼マップを作成する新しい信頼損失を提案する。
得られた信頼度マップを用いて,最終深度をエンドツーエンドに融合するマルチモーダル融合ネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-19T04:39:16Z) - Cognitive TransFuser: Semantics-guided Transformer-based Sensor Fusion
for Improved Waypoint Prediction [38.971222477695214]
RGB-LIDARベースのマルチタスク機能融合ネットワークであるCognitive TransFuserは、安全で完全な道路ナビゲーションのために、ベースラインネットワークを大幅に拡張し、超える。
提案したネットワークをCown05 Short と Town05 Long Benchmarkで広範囲な実験により検証し,44.2 FPSのリアルタイム推論時間を実現した。
論文 参考訳(メタデータ) (2023-08-04T03:59:10Z) - Learning Online Multi-Sensor Depth Fusion [100.84519175539378]
SenFuNetは、センサ固有のノイズと外れ値統計を学習するディープフュージョンアプローチである。
実世界のCoRBSとScene3Dデータセットで様々なセンサーの組み合わせで実験を行う。
論文 参考訳(メタデータ) (2022-04-07T10:45:32Z) - GEM: Glare or Gloom, I Can Still See You -- End-to-End Multimodal Object
Detector [11.161639542268015]
厳しい照明条件下での2次元物体検出のためのセンサ対応マルチモーダル融合戦略を提案する。
本ネットワークは,各センサモダリティの測定信頼性をスカラーウェイトとマスクの形で推定する。
提案手法はFLIR-Thermalデータセット上で既存の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-02-24T14:56:37Z) - Learning Selective Sensor Fusion for States Estimation [47.76590539558037]
本稿では,エンド・ツー・エンドのセンサ・フュージョン・モジュールであるSelectFusionを提案する。
予測中、ネットワークは異なるセンサーモードから潜伏する特徴の信頼性を評価することができる。
我々は、公開データセットと漸進的に劣化したデータセットの両方において、すべての融合戦略を広範囲に評価する。
論文 参考訳(メタデータ) (2019-12-30T20:25:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。