論文の概要: A Multi-modal Fusion Network for Terrain Perception Based on Illumination Aware
- arxiv url: http://arxiv.org/abs/2505.11066v1
- Date: Fri, 16 May 2025 10:02:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.576596
- Title: A Multi-modal Fusion Network for Terrain Perception Based on Illumination Aware
- Title(参考訳): 照明認識に基づく地形認識のためのマルチモーダル融合ネットワーク
- Authors: Rui Wang, Shichun Yang, Yuyi Chen, Zhuoyang Li, Zexiang Tong, Jianyi Xu, Jiayi Lu, Xinjie Feng, Yaoguang Cao,
- Abstract要約: 道路地形は自動運転車(AV)の運転安全確保に重要な役割を担っている
カメラやライダーを含む既存のAVセンサーは、照明や気象条件の変化に影響を受けやすい。
本稿では,外受容と固有受容の両面を利用した照明対応多モード核融合ネットワーク(IMF)を提案する。
- 参考スコア(独自算出の注目度): 4.964908292792731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Road terrains play a crucial role in ensuring the driving safety of autonomous vehicles (AVs). However, existing sensors of AVs, including cameras and Lidars, are susceptible to variations in lighting and weather conditions, making it challenging to achieve real-time perception of road conditions. In this paper, we propose an illumination-aware multi-modal fusion network (IMF), which leverages both exteroceptive and proprioceptive perception and optimizes the fusion process based on illumination features. We introduce an illumination-perception sub-network to accurately estimate illumination features. Moreover, we design a multi-modal fusion network which is able to dynamically adjust weights of different modalities according to illumination features. We enhance the optimization process by pre-training of the illumination-perception sub-network and incorporating illumination loss as one of the training constraints. Extensive experiments demonstrate that the IMF shows a superior performance compared to state-of-the-art methods. The comparison results with single modality perception methods highlight the comprehensive advantages of multi-modal fusion in accurately perceiving road terrains under varying lighting conditions. Our dataset is available at: https://github.com/lindawang2016/IMF.
- Abstract(参考訳): 道路地形は、自動運転車(AV)の運転安全を確保する上で重要な役割を担っている。
しかし、カメラやライダーを含む既存のAVセンサーは、照明や気象条件の変化の影響を受けやすいため、道路状況のリアルタイム認識は困難である。
本稿では,外受容と固有受容の両方を活かした照明対応多モード核融合ネットワーク(IMF)を提案し,照明特徴に基づく核融合プロセスの最適化を行う。
照明特徴を正確に推定するために、照明知覚サブネットワークを導入する。
さらに,照明特性に応じて異なるモードの重みを動的に調整できるマルチモーダル融合ネットワークを設計する。
我々は、照明知覚サブネットワークの事前学習と、照明損失をトレーニング制約の1つとして組み込むことにより、最適化プロセスを強化する。
広範囲にわたる実験は、IMFが最先端の手法よりも優れたパフォーマンスを示したことを示している。
単一モード知覚法との比較結果は, 異なる照明条件下での道路地形を正確に知覚する上で, マルチモーダル融合の総合的な利点を浮き彫りにしている。
私たちのデータセットは、https://github.com/lindawang2016/IMFで公開されています。
関連論文リスト
- Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - ALEN: A Dual-Approach for Uniform and Non-Uniform Low-Light Image Enhancement [10.957431540794836]
不適切な照明は、情報損失や画質の低下を招き、監視などの様々な応用に影響を及ぼす可能性がある。
現在のエンハンスメント技術は、しばしば特定のデータセットを使用して低照度画像を強化するが、様々な現実世界の条件に適応する際の課題は残る。
アダプティブ・ライト・エンハンスメント・ネットワーク (ALEN) を導入し、その主なアプローチは、ローカル照明とグローバル照明の強化が必要であるかどうかを決定するための分類機構を使用することである。
論文 参考訳(メタデータ) (2024-07-29T05:19:23Z) - Light the Night: A Multi-Condition Diffusion Framework for Unpaired Low-Light Enhancement in Autonomous Driving [45.97279394690308]
LightDiffは、自動運転アプリケーションの低照度画像品質を高めるために設計されたフレームワークである。
深度マップ、RGB画像、テキストキャプションなど、様々なモードから入力重みを適応的に制御する新しいマルチコンディションアダプタが組み込まれている。
夜間の条件下での最先端の3D検出器の性能を著しく向上し、高い視覚的品質のスコアを達成できる。
論文 参考訳(メタデータ) (2024-04-07T04:10:06Z) - Beyond Night Visibility: Adaptive Multi-Scale Fusion of Infrared and
Visible Images [49.75771095302775]
赤外線および可視画像を用いた適応型マルチスケール核融合ネットワーク(AMFusion)を提案する。
まず、赤外画像と可視画像から空間的特徴と意味的特徴を分離し、前者が光分布の調整に使用される。
第2に,事前学習したバックボーンから抽出した検出機能を利用して,意味的特徴の融合を誘導する。
第3に、通常の光強度で融合画像を制約する新しい照明損失を提案する。
論文 参考訳(メタデータ) (2024-03-02T03:52:07Z) - NeFII: Inverse Rendering for Reflectance Decomposition with Near-Field
Indirect Illumination [48.42173911185454]
逆レンダリング手法は、多視点RGB画像から幾何学、材料、照明を推定することを目的としている。
本稿では,多視点画像から材料と照明を分解するエンドツーエンドの逆レンダリングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-29T12:05:19Z) - Sparse Needlets for Lighting Estimation with Spherical Transport Loss [89.52531416604774]
NeedleLightは、新しい照明推定モデルであり、必要に応じて照明を表現し、周波数領域と空間領域を共同で照明推定することができる。
大規模な実験により、NeedleLightは、最先端の手法と比較して、複数の評価指標で常に優れた照明推定を実現していることがわかった。
論文 参考訳(メタデータ) (2021-06-24T15:19:42Z) - Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文 参考訳(メタデータ) (2021-04-19T11:48:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。