論文の概要: A New Dataset and Framework for Robust Road Surface Classification via Camera-IMU Fusion
- arxiv url: http://arxiv.org/abs/2601.20847v2
- Date: Thu, 29 Jan 2026 13:26:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 14:13:20.142479
- Title: A New Dataset and Framework for Robust Road Surface Classification via Camera-IMU Fusion
- Title(参考訳): カメラIMU融合によるロバスト道路表面分類のための新しいデータセットとフレームワーク
- Authors: Willams de Lima Costa, Thifany Ketuli Silva de Souza, Jonas Ferreira Silva, Carlos Gabriel Bezerra Pereira, Bruno Reis Vila Nova, Leonardo Silvino Brito, Rafael Raider Leoni, Juliano Silva Filho, Valter Ferreira, Sibele Miguel Soares Neto, Samantha Uehara, Daniel Giacometti Amaral, João Marcelo Teixeira, Veronica Teichrieb, Cristiano Coelho de Araújo,
- Abstract要約: 道路表面分類(RSC)は、環境に配慮した予測保守システムにおいて重要な実現法である。
既存のRCC技術は、狭い運用条件を超えた一般化に失敗することが多い。
この研究は、画像と慣性測定を融合するマルチモーダルフレームワークを導入している。
- 参考スコア(独自算出の注目度): 3.571515153090507
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Road surface classification (RSC) is a key enabler for environment-aware predictive maintenance systems. However, existing RSC techniques often fail to generalize beyond narrow operational conditions due to limited sensing modalities and datasets that lack environmental diversity. This work addresses these limitations by introducing a multimodal framework that fuses images and inertial measurements using a lightweight bidirectional cross-attention module followed by an adaptive gating layer that adjusts modality contributions under domain shifts. Given the limitations of current benchmarks, especially regarding lack of variability, we introduce ROAD, a new dataset composed of three complementary subsets: (i) real-world multimodal recordings with RGB-IMU streams synchronized using a gold-standard industry datalogger, captured across diverse lighting, weather, and surface conditions; (ii) a large vision-only subset designed to assess robustness under adverse illumination and heterogeneous capture setups; and (iii) a synthetic subset generated to study out-of-distribution generalization in scenarios difficult to obtain in practice. Experiments show that our method achieves a +1.4 pp improvement over the previous state-of-the-art on the PVS benchmark and an +11.6 pp improvement on our multimodal ROAD subset, with consistently higher F1-scores on minority classes. The framework also demonstrates stable performance across challenging visual conditions, including nighttime, heavy rain, and mixed-surface transitions. These findings indicate that combining affordable camera and IMU sensors with multimodal attention mechanisms provides a scalable, robust foundation for road surface understanding, particularly relevant for regions where environmental variability and cost constraints limit the adoption of high-end sensing suites.
- Abstract(参考訳): 道路表面分類(RSC)は、環境に配慮した予測保守システムにおいて重要な実現法である。
しかし、既存のRCC技術は、環境の多様性に欠ける限られた感度のモダリティやデータセットのために、狭い運用条件を超える一般化に失敗することが多い。
この研究は、軽量な双方向のクロスアテンションモジュールを用いて画像と慣性測定を融合するマルチモーダルフレームワークを導入し、ドメインシフト下でのモダリティコントリビューションを調整する適応ゲーティング層に対処する。
現在のベンチマークの制限、特に変動性の欠如を考えると、3つの補完的なサブセットからなる新しいデータセットであるROADを導入する。
(i)RGB-IMUストリームを用いた実世界のマルチモーダル録音をゴールドスタンダード産業データロガーで同期させ、様々な照明、天気、表面条件で撮影すること。
二 悪照明及び異種捕獲設備の下での堅牢性を評価するために設計された大型の視覚専用サブセット
三 実際に入手し難いシナリオにおける分布外一般化を研究するために生成された合成部分集合。
実験の結果,PVSベンチマークでは従来よりも1.4pp,マルチモーダルROADサブセットでは+11.6pp,マイノリティクラスではF1スコアが一貫して向上していることがわかった。
このフレームワークはまた、夜間、豪雨、混合地表面の遷移など、困難な視覚条件をまたいで安定したパフォーマンスを示す。
これらの結果から,安価なカメラとIMUセンサとマルチモーダルアテンション機構を組み合わせることで,道路表面理解のスケーラブルで堅牢な基盤が得られ,特に環境変動やコスト制約がハイエンドセンシングスイートの採用を制限している地域では有効であることが示唆された。
関連論文リスト
- DSFC-Net: A Dual-Encoder Spatial and Frequency Co-Awareness Network for Rural Road Extraction [32.51260718935461]
本稿では,空間および周波数領域情報を融合するデュアルエンコーダフレームワークDSFC-Netを提案する。
CFIAモジュールはラプラシアピラミッド戦略を通じて、高周波数と低周波の情報を明示的に分離する。
WHU-RuR+、DeepGlobe、およびマサチューセッツのデータセットの実験は、最先端のアプローチよりもDSFC-Netの方が優れていることを検証した。
論文 参考訳(メタデータ) (2026-02-01T15:23:42Z) - Adaptive Attention Distillation for Robust Few-Shot Segmentation under Environmental Perturbations [43.30169413561605]
Few-shot segmentation (FSS) は、限られた例から新しいクラス概念を迅速に学習し、特定のターゲットを目に見えない画像に分割することを目的としている。
既存の研究は、現実世界のシナリオで遭遇する複雑な環境要因を概ね見落としている。
本稿では,複雑な環境から生じる挑戦的なテストケースを明示的に組み込んだ,環境負荷の高いFSS設定を提案する。
論文 参考訳(メタデータ) (2026-01-07T05:27:12Z) - A Novel Multimodal RUL Framework for Remaining Useful Life Estimation with Layer-wise Explanations [2.312232949770907]
転がり要素軸受は機械故障の最も頻発する原因の一つである。
転がり要素軸受は機械故障の最も頻発する原因の一つである。
既存のアプローチは、しばしば、一般化の貧弱、堅牢性の欠如、高いデータ要求、限定的な解釈可能性に悩まされる。
論文 参考訳(メタデータ) (2025-12-07T07:38:36Z) - Semantics and Content Matter: Towards Multi-Prior Hierarchical Mamba for Image Deraining [95.00432497331583]
画像デライニングのためのマルチPrior Hierarchical Mamba (MPHM) ネットワーク
MPHMは、タスクレベルのセマンティックガイダンスのためのマクロセマンティックテキスト先行(CLIP)と、シーン認識構造情報のためのマイクロ構造視覚先行(DINOv2)を統合している。
実験ではMPHMの最先端のパフォーマンスを実証し、Rain200Hデータセットで0.57dBのPSNRゲインを達成した。
論文 参考訳(メタデータ) (2025-11-17T08:08:59Z) - Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - DFYP: A Dynamic Fusion Framework with Spectral Channel Attention and Adaptive Operator learning for Crop Yield Prediction [18.24061967822792]
DFYPは、作物収量予測のための新しい動的融合フレームワークである。
スペクトルチャネルアテンション、エッジ適応空間モデリング、学習可能な融合機構を組み合わせる。
DFYPはRMSE、MAE、R2の最先端ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-07-08T10:24:04Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - PFSD: A Multi-Modal Pedestrian-Focus Scene Dataset for Rich Tasks in Semi-Structured Environments [73.80718037070773]
本稿では, 半構造化シーンに, nuScenesの形式を付加したマルチモーダルなPedestrian-Focused Sceneデータセットを提案する。
また,密集・隠蔽シナリオにおける歩行者検出のためのHMFN(Hybrid Multi-Scale Fusion Network)を提案する。
論文 参考訳(メタデータ) (2025-02-21T09:57:53Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - Divide-and-Conquer: Confluent Triple-Flow Network for RGB-T Salient Object Detection [70.84835546732738]
RGB-Thermal Salient Object Detectionは、目視と熱赤外画像のペア内の目立つ物体をピンポイントすることを目的としている。
従来のエンコーダ・デコーダアーキテクチャは、欠陥モードから生じるノイズに対する頑健さを十分に考慮していなかったかもしれない。
本稿では,Divide-and-Conquer戦略を用いた,堅牢なConfluent Triple-Flow NetworkであるConTriNetを提案する。
論文 参考訳(メタデータ) (2024-12-02T14:44:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。