論文の概要: OmniUnet: A Multimodal Network for Unstructured Terrain Segmentation on Planetary Rovers Using RGB, Depth, and Thermal Imagery
- arxiv url: http://arxiv.org/abs/2508.00580v1
- Date: Fri, 01 Aug 2025 12:23:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.874506
- Title: OmniUnet: A Multimodal Network for Unstructured Terrain Segmentation on Planetary Rovers Using RGB, Depth, and Thermal Imagery
- Title(参考訳): OmniUnet:RGB,深さ,熱画像を用いた惑星ローバー上の非構造地層セグメンテーションのためのマルチモーダルネットワーク
- Authors: Raul Castilla-Arquillo, Carlos Perez-del-Pulgar, Levin Gerdes, Alfonso Garcia-Cerezo, Miguel A. Olivares-Mendez,
- Abstract要約: この研究は、RGB、深さ、熱画像を用いたセマンティックセグメンテーションのためのトランスフォーマーベースのニューラルネットワークアーキテクチャであるOmniUnetを提示する。
カスタム・マルチモーダル・センサー・ハウジングは3Dプリンティングを使用して開発され、マーチャン・ローバー・テストベッド・フォー・オートノミーに搭載された。
このデータセットのサブセットは手動でラベル付けされ、ネットワークの教師付きトレーニングをサポートする。
推論テストでは、リソース制約されたコンピュータで平均673msの予測時間を得た。
- 参考スコア(独自算出の注目度): 0.5837061763460748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robot navigation in unstructured environments requires multimodal perception systems that can support safe navigation. Multimodality enables the integration of complementary information collected by different sensors. However, this information must be processed by machine learning algorithms specifically designed to leverage heterogeneous data. Furthermore, it is necessary to identify which sensor modalities are most informative for navigation in the target environment. In Martian exploration, thermal imagery has proven valuable for assessing terrain safety due to differences in thermal behaviour between soil types. This work presents OmniUnet, a transformer-based neural network architecture for semantic segmentation using RGB, depth, and thermal (RGB-D-T) imagery. A custom multimodal sensor housing was developed using 3D printing and mounted on the Martian Rover Testbed for Autonomy (MaRTA) to collect a multimodal dataset in the Bardenas semi-desert in northern Spain. This location serves as a representative environment of the Martian surface, featuring terrain types such as sand, bedrock, and compact soil. A subset of this dataset was manually labeled to support supervised training of the network. The model was evaluated both quantitatively and qualitatively, achieving a pixel accuracy of 80.37% and demonstrating strong performance in segmenting complex unstructured terrain. Inference tests yielded an average prediction time of 673 ms on a resource-constrained computer (Jetson Orin Nano), confirming its suitability for on-robot deployment. The software implementation of the network and the labeled dataset have been made publicly available to support future research in multimodal terrain perception for planetary robotics.
- Abstract(参考訳): 非構造環境におけるロボットナビゲーションには、安全なナビゲーションをサポートするマルチモーダル認識システムが必要である。
マルチモーダリティは、異なるセンサによって収集された補完的な情報の統合を可能にする。
しかし、この情報は異種データを活用するために特別に設計された機械学習アルゴリズムによって処理されなければならない。
さらに、ターゲット環境におけるナビゲーションにおいて、どのセンサモードが最も有益かを特定する必要がある。
火星探査では、土壌間の熱的挙動の違いにより、地形の安全性を評価する上で、熱画像が有用であることが証明されている。
この研究は、RGB、深さ、熱(RGB-D-T)画像を用いたセマンティックセグメンテーションのためのトランスフォーマーベースのニューラルネットワークアーキテクチャであるOmniUnetを提示する。
独自のマルチモーダル・センサー・ハウジングが3Dプリンティングを使用して開発され、北スペインのバルデナス・セミデザートでマルチモーダル・データセットを収集するためにマーチャン・ローバー・テストベッド・フォー・オートノミー (MaRTA) に搭載された。
この場所は火星表面の代表的環境として機能し、砂、岩盤、コンパクトな土壌などの地形を特徴としている。
このデータセットのサブセットは手動でラベル付けされ、ネットワークの教師付きトレーニングをサポートする。
モデルは定量的および定性的に評価され, 画素精度は80.37%であり, 複雑な非構造地形のセグメンテーションにおいて高い性能を示した。
推論テストでは、リソース制約されたコンピュータ(Jetson Orin Nano)で平均673msの予測時間を得た。
ネットワークとラベル付きデータセットのソフトウェア実装は、惑星ロボティクスのマルチモーダルな地形認識における将来の研究を支援するために公開されている。
関連論文リスト
- MineInsight: A Multi-sensor Dataset for Humanitarian Demining Robotics in Off-Road Environments [0.5339846068056558]
我々は,地雷検出のためのマルチセンサ,マルチスペクトルデータセットであるMineInsightを紹介した。
データセットには3つの異なるトラックに沿って分散された35の異なるターゲットがあり、多様で現実的なテスト環境を提供する。
MineInsightは地雷検出アルゴリズムの開発と評価のベンチマークとして機能する。
論文 参考訳(メタデータ) (2025-06-05T10:08:24Z) - TUM2TWIN: Introducing the Large-Scale Multimodal Urban Digital Twin Benchmark Dataset [90.97440987655084]
都市デジタルツインズ(UDT)は、都市管理と多様なソースからの複雑な異種データの統合に欠かせないものとなっている。
これらの課題に対処するために、最初の総合的マルチモーダルなUrban Digital TwinベンチマークデータセットTUM2TWINを紹介する。
このデータセットには、地理的にセマンティックに整合した3Dモデルとネットワーク、およびさまざまな地球、モバイル、航空、衛星観測結果、約10,000ドル以上のデータサブセット、そして現在767GBのデータが含まれている。
論文 参考訳(メタデータ) (2025-05-12T09:48:32Z) - CompSLAM: Complementary Hierarchical Multi-Modal Localization and Mapping for Robot Autonomy in Underground Environments [38.264929235624905]
CompSLAMは、ロボットのためのマルチモーダルなローカライゼーションとマッピングフレームワークである。
決勝戦で勝利したチーム・ケルベロスの全ての空中、脚、車輪付きロボットに配備された。
本稿では,DARPAサブテランチャレンジの決勝コースの大部分をカバーする,手動で遠隔操作された四足歩行ロボットが取得したデータセットについても紹介する。
論文 参考訳(メタデータ) (2025-05-10T00:59:31Z) - Are We Ready for Real-Time LiDAR Semantic Segmentation in Autonomous Driving? [42.348499880894686]
シーンセマンティックセグメンテーションは、3次元空間データを専門のディープニューラルネットワークと直接統合することで実現できる。
本研究では, NVIDIA Jetson プラットフォーム上でのリソース制約推論の性能と性能を解析し, 様々な3次元セマンティックセマンティックセマンティクス手法について検討する。
論文 参考訳(メタデータ) (2024-10-10T20:47:33Z) - Artifacts Mapping: Multi-Modal Semantic Mapping for Object Detection and
3D Localization [13.473742114288616]
既知の環境下でオブジェクトを自律的に検出・ローカライズするフレームワークを提案する。
フレームワークは,RGBデータによる環境理解,マルチモーダルセンサ融合による深度推定,アーティファクト管理という,3つの重要な要素で構成されている。
実験の結果,提案フレームワークは実サンプル環境におけるオブジェクトの98%を後処理なしで正確に検出できることがわかった。
論文 参考訳(メタデータ) (2023-07-03T15:51:39Z) - UnLoc: A Universal Localization Method for Autonomous Vehicles using
LiDAR, Radar and/or Camera Input [51.150605800173366]
UnLocは、全ての気象条件におけるマルチセンサー入力によるローカライズのための、新しい統一型ニューラルネットワークアプローチである。
本手法は,Oxford Radar RobotCar,Apollo SouthBay,Perth-WAの各データセットで広く評価されている。
論文 参考訳(メタデータ) (2023-07-03T04:10:55Z) - Mixed-domain Training Improves Multi-Mission Terrain Segmentation [0.9566312408744931]
現在の火星の地形区分モデルは、異なる領域にまたがる配置のために再訓練を必要とする。
本研究では,火星表面のマルチミッションセマンティックセマンティックセグメンテーションのために,バックボーンの教師なしコントラスト事前学習を利用する半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-27T20:25:24Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - Deep Learning for Real Time Satellite Pose Estimation on Low Power Edge
TPU [58.720142291102135]
本稿では,ニューラルネットワークアーキテクチャを利用したポーズ推定ソフトウェアを提案する。
我々は、低消費電力の機械学習アクセラレーターが宇宙での人工知能の活用を可能にしていることを示す。
論文 参考訳(メタデータ) (2022-04-07T08:53:18Z) - Kimera-Multi: Robust, Distributed, Dense Metric-Semantic SLAM for
Multi-Robot Systems [92.26462290867963]
Kimera-Multiは、最初のマルチロボットシステムであり、不正なインターループとイントラロボットループの閉鎖を識別し拒否することができる。
我々は、フォトリアリスティックシミュレーション、SLAMベンチマークデータセット、地上ロボットを用いて収集された屋外データセットの挑戦において、Kimera-Multiを実証した。
論文 参考訳(メタデータ) (2021-06-28T03:56:40Z) - Kimera-Multi: a System for Distributed Multi-Robot Metric-Semantic
Simultaneous Localization and Mapping [57.173793973480656]
本稿では,高密度メカニカル・セマンティックSLAMのための完全分散マルチロボットシステムを提案する。
私たちのシステムはKimera-Multiと呼ばれ、視覚慣性センサーを備えたロボットチームによって実装されています。
Kimera-Multiは環境の3Dメッシュモデルをリアルタイムで構築し、メッシュの各面にセマンティックラベルをアノテートする。
論文 参考訳(メタデータ) (2020-11-08T21:38:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。