論文の概要: A New Dataset and Framework for Robust Road Surface Classification via Camera-IMU Fusion
- arxiv url: http://arxiv.org/abs/2601.20847v1
- Date: Wed, 28 Jan 2026 18:46:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:07.102882
- Title: A New Dataset and Framework for Robust Road Surface Classification via Camera-IMU Fusion
- Title(参考訳): カメラIMU融合によるロバスト道路表面分類のための新しいデータセットとフレームワーク
- Authors: Willams de Lima Costa, Thifany Ketuli Silva de Souza, Jonas Ferreira Silva, Carlos Gabriel Bezerra Pereira, Bruno Reis Vila Nova, Leonardo Silvino Brito, Rafael Raider Leoni, Juliano Silva, Valter Ferreira, Sibele Miguel Soares Neto, Samantha Uehara, Daniel Giacomo, João Marcelo Teixeira, Veronica Teichrieb, Cristiano Coelho de Araújo,
- Abstract要約: 道路表面分類(RSC)は、環境に配慮した予測保守システムにおいて重要な実現法である。
既存のRCC技術は、狭い運用条件を超えた一般化に失敗することが多い。
この研究は、画像と慣性測定を融合するマルチモーダルフレームワークを導入している。
- 参考スコア(独自算出の注目度): 3.571515153090507
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Road surface classification (RSC) is a key enabler for environment-aware predictive maintenance systems. However, existing RSC techniques often fail to generalize beyond narrow operational conditions due to limited sensing modalities and datasets that lack environmental diversity. This work addresses these limitations by introducing a multimodal framework that fuses images and inertial measurements using a lightweight bidirectional cross-attention module followed by an adaptive gating layer that adjusts modality contributions under domain shifts. Given the limitations of current benchmarks, especially regarding lack of variability, we introduce ROAD, a new dataset composed of three complementary subsets: (i) real-world multimodal recordings with RGB-IMU streams synchronized using a gold-standard industry datalogger, captured across diverse lighting, weather, and surface conditions; (ii) a large vision-only subset designed to assess robustness under adverse illumination and heterogeneous capture setups; and (iii) a synthetic subset generated to study out-of-distribution generalization in scenarios difficult to obtain in practice. Experiments show that our method achieves a +1.4 pp improvement over the previous state-of-the-art on the PVS benchmark and an +11.6 pp improvement on our multimodal ROAD subset, with consistently higher F1-scores on minority classes. The framework also demonstrates stable performance across challenging visual conditions, including nighttime, heavy rain, and mixed-surface transitions. These findings indicate that combining affordable camera and IMU sensors with multimodal attention mechanisms provides a scalable, robust foundation for road surface understanding, particularly relevant for regions where environmental variability and cost constraints limit the adoption of high-end sensing suites.
- Abstract(参考訳): 道路表面分類(RSC)は、環境に配慮した予測保守システムにおいて重要な実現法である。
しかし、既存のRCC技術は、環境の多様性に欠ける限られた感度のモダリティやデータセットのために、狭い運用条件を超える一般化に失敗することが多い。
この研究は、軽量な双方向のクロスアテンションモジュールを用いて画像と慣性測定を融合するマルチモーダルフレームワークを導入し、ドメインシフト下でのモダリティコントリビューションを調整する適応ゲーティング層に対処する。
現在のベンチマークの制限、特に変動性の欠如を考えると、3つの補完的なサブセットからなる新しいデータセットであるROADを導入する。
(i)RGB-IMUストリームを用いた実世界のマルチモーダル録音をゴールドスタンダード産業データロガーで同期させ、様々な照明、天気、表面条件で撮影すること。
二 悪照明及び異種捕獲設備の下での堅牢性を評価するために設計された大型の視覚専用サブセット
三 実際に入手し難いシナリオにおける分布外一般化を研究するために生成された合成部分集合。
実験の結果,PVSベンチマークでは従来よりも1.4pp,マルチモーダルROADサブセットでは+11.6pp,マイノリティクラスではF1スコアが一貫して向上していることがわかった。
このフレームワークはまた、夜間、豪雨、混合地表面の遷移など、困難な視覚条件をまたいで安定したパフォーマンスを示す。
これらの結果から,安価なカメラとIMUセンサとマルチモーダルアテンション機構を組み合わせることで,道路表面理解のスケーラブルで堅牢な基盤が得られ,特に環境変動やコスト制約がハイエンドセンシングスイートの採用を制限している地域では有効であることが示唆された。
関連論文リスト
- A Novel Multimodal RUL Framework for Remaining Useful Life Estimation with Layer-wise Explanations [2.312232949770907]
転がり要素軸受は機械故障の最も頻発する原因の一つである。
転がり要素軸受は機械故障の最も頻発する原因の一つである。
既存のアプローチは、しばしば、一般化の貧弱、堅牢性の欠如、高いデータ要求、限定的な解釈可能性に悩まされる。
論文 参考訳(メタデータ) (2025-12-07T07:38:36Z) - Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - DFYP: A Dynamic Fusion Framework with Spectral Channel Attention and Adaptive Operator learning for Crop Yield Prediction [18.24061967822792]
DFYPは、作物収量予測のための新しい動的融合フレームワークである。
スペクトルチャネルアテンション、エッジ適応空間モデリング、学習可能な融合機構を組み合わせる。
DFYPはRMSE、MAE、R2の最先端ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-07-08T10:24:04Z) - PFSD: A Multi-Modal Pedestrian-Focus Scene Dataset for Rich Tasks in Semi-Structured Environments [73.80718037070773]
本稿では, 半構造化シーンに, nuScenesの形式を付加したマルチモーダルなPedestrian-Focused Sceneデータセットを提案する。
また,密集・隠蔽シナリオにおける歩行者検出のためのHMFN(Hybrid Multi-Scale Fusion Network)を提案する。
論文 参考訳(メタデータ) (2025-02-21T09:57:53Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - Divide-and-Conquer: Confluent Triple-Flow Network for RGB-T Salient Object Detection [70.84835546732738]
RGB-Thermal Salient Object Detectionは、目視と熱赤外画像のペア内の目立つ物体をピンポイントすることを目的としている。
従来のエンコーダ・デコーダアーキテクチャは、欠陥モードから生じるノイズに対する頑健さを十分に考慮していなかったかもしれない。
本稿では,Divide-and-Conquer戦略を用いた,堅牢なConfluent Triple-Flow NetworkであるConTriNetを提案する。
論文 参考訳(メタデータ) (2024-12-02T14:44:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。