論文の概要: Few-shot Semantic Learning for Robust Multi-Biome 3D Semantic Mapping in Off-Road Environments
- arxiv url: http://arxiv.org/abs/2411.06632v1
- Date: Sun, 10 Nov 2024 23:52:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:10:40.350748
- Title: Few-shot Semantic Learning for Robust Multi-Biome 3D Semantic Mapping in Off-Road Environments
- Title(参考訳): オフロード環境におけるロバストなマルチバイオーム3次元セマンティックマッピングのためのFew-shot Semantic Learning
- Authors: Deegan Atha, Xianmei Lei, Shehryar Khattak, Anna Sabel, Elle Miller, Aurelio Noca, Grace Lim, Jeffrey Edlund, Curtis Padgett, Patrick Spieler,
- Abstract要約: オフロード環境は、高速自律航法において重要な認識課題をもたらす。
本稿では,500枚の画像,スパース,粗いラベル付き(30%ピクセル)マルチバイオームデータセットを微調整し,事前学習したビジョントランスフォーマー(ViT)を活用するアプローチを提案する。
これらのクラスは、新しいレンジベースの計量によって時間とともに融合され、3Dセマンティックなボクセルマップに集約される。
- 参考スコア(独自算出の注目度): 4.106846770364469
- License:
- Abstract: Off-road environments pose significant perception challenges for high-speed autonomous navigation due to unstructured terrain, degraded sensing conditions, and domain-shifts among biomes. Learning semantic information across these conditions and biomes can be challenging when a large amount of ground truth data is required. In this work, we propose an approach that leverages a pre-trained Vision Transformer (ViT) with fine-tuning on a small (<500 images), sparse and coarsely labeled (<30% pixels) multi-biome dataset to predict 2D semantic segmentation classes. These classes are fused over time via a novel range-based metric and aggregated into a 3D semantic voxel map. We demonstrate zero-shot out-of-biome 2D semantic segmentation on the Yamaha (52.9 mIoU) and Rellis (55.5 mIoU) datasets along with few-shot coarse sparse labeling with existing data for improved segmentation performance on Yamaha (66.6 mIoU) and Rellis (67.2 mIoU). We further illustrate the feasibility of using a voxel map with a range-based semantic fusion approach to handle common off-road hazards like pop-up hazards, overhangs, and water features.
- Abstract(参考訳): オフロード環境は、非構造地形、劣化した感知条件、生物群間のドメインシフトなどにより、高速な自律航法に重大な課題をもたらす。
これらの条件と生物のセマンティックな情報を学ぶことは、大量の真理データが必要な場合に困難である。
本研究では,2次元セマンティックセグメンテーションクラスを予測するために,事前学習したビジョントランスフォーマ(ViT)を,小さな(<500イメージ),スパース,粗いラベル付き(<30%ピクセル)マルチバイオームデータセット上で微調整する手法を提案する。
これらのクラスは、新しいレンジベースの計量によって時間とともに融合され、3Dセマンティックなボクセルマップに集約される。
我々は,ヤマハ (52.9 mIoU) とリリス (55.5 mIoU) のデータセットに対するゼロショット2次元セマンティックセマンティックセマンティックセマンティックセマンティックセマンティックセマンティクスと,ヤマハ (66.6 mIoU) とリリス (67.2 mIoU) のセマンティクス性能を向上させるために,既存のデータを用いた粗いスパースラベリングを行った。
さらに, ポップアップハザード, オーバーハング, 水の特徴など, 一般的なオフロードハザードを扱うために, 範囲ベースセマンティックフュージョンアプローチを用いたボクセルマップの実現可能性について述べる。
関連論文リスト
- Neural Semantic Map-Learning for Autonomous Vehicles [85.8425492858912]
本稿では,道路環境のコヒーレントな地図を作成するために,車両群から収集した局所部分写像を中心インスタンスに融合するマッピングシステムを提案する。
本手法は,シーン特異的なニューラルサイン距離場を用いて,雑音と不完全局所部分写像を併用する。
我々は,記憶効率の高いスパース機能グリッドを活用して大規模にスケールし,シーン再構築における不確実性をモデル化するための信頼スコアを導入する。
論文 参考訳(メタデータ) (2024-10-10T10:10:03Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Fewshot learning on global multimodal embeddings for earth observation
tasks [5.057850174013128]
地球の総面積の10%以上をカバーする衛星画像の3つの異なるモードを用いて、CLIP/ViTベースのモデルを事前訓練する。
我々は、従来の機械学習手法を用いて、各モードで生成された埋め込みを用いて、地球観測のために異なる下流タスクを試みている。
ラベルのない埋め込み空間は、私たちが選択したラベル付きデータセットで表される異なる地球の特徴に感受性があることを視覚的に示す。
論文 参考訳(メタデータ) (2023-09-29T20:15:52Z) - Navya3DSeg -- Navya 3D Semantic Segmentation Dataset & split generation
for autonomous vehicles [63.20765930558542]
3Dセマンティックデータは、障害物検出やエゴ-車両の局所化といった中核的な認識タスクに有用である。
そこで我々は,大規模生産段階の運用領域に対応する多様なラベル空間を持つ新しいデータセットであるNavala 3D(Navya3DSeg)を提案する。
ラベルのない23のラベル付きシーケンスと25の補足シーケンスが含まれており、ポイントクラウド上の自己教師付きおよび半教師付きセマンティックセマンティックセグメンテーションベンチマークを探索するために設計された。
論文 参考訳(メタデータ) (2023-02-16T13:41:19Z) - Pyramid Fusion Transformer for Semantic Segmentation [44.57867861592341]
マルチスケール特徴量を持つマスク毎のセマンティックセマンティックセグメンテーションのためのトランスフォーマベースピラミッドフュージョントランス (PFT) を提案する。
広く使われている3つのセマンティックセグメンテーションデータセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-01-11T16:09:25Z) - A Real-Time Online Learning Framework for Joint 3D Reconstruction and
Semantic Segmentation of Indoor Scenes [87.74952229507096]
本稿では,屋内シーンの3次元構造とセマンティックラベルを協調的に復元するリアルタイムオンライン視覚フレームワークを提案する。
列車時、ノイズの多い深度マップ、カメラ軌跡、および2Dセマンティックラベルを与えられたニューラルネットワークは、シーン空間に適切なセマンティックラベルでフレームの奥行きを融合させることを学習する。
論文 参考訳(メタデータ) (2021-08-11T14:29:01Z) - EagerMOT: 3D Multi-Object Tracking via Sensor Fusion [68.8204255655161]
マルチオブジェクトトラッキング(MOT)により、移動ロボットは周囲の物体を3次元空間と時間で位置づけすることで、良好な動作計画とナビゲーションを行うことができる。
既存の方法は、深度センサー(例えばLiDAR)を使用して3D空間のターゲットを検出し追跡するが、信号の間隔が限られているため、検出範囲は限られている。
我々は,両方のセンサモダリティから利用可能な物体を全て統合し,シーンのダイナミックスを適切に解釈する簡易なトラッキング定式化であるeagermotを提案する。
論文 参考訳(メタデータ) (2021-04-29T22:30:29Z) - GANav: Group-wise Attention Network for Classifying Navigable Regions in
Unstructured Outdoor Environments [54.21959527308051]
本稿では,RGB画像から,オフロード地形および非構造環境における安全かつ航行可能な領域を識別する新しい学習手法を提案する。
本手法は,粒度の粗いセマンティックセグメンテーションを用いて,そのナビビリティレベルに基づいて地形分類群を分類する。
RUGD と RELLIS-3D のデータセットを広範囲に評価することにより,我々の学習アルゴリズムがナビゲーションのためのオフロード地形における視覚知覚の精度を向上させることを示す。
論文 参考訳(メタデータ) (2021-03-07T02:16:24Z) - RELLIS-3D Dataset: Data, Benchmarks and Analysis [16.803548871633957]
RELLIS-3Dはオフロード環境で収集されたマルチモーダルデータセットである。
データはテキサスA&M大学のRellis Campusで収集されました。
論文 参考訳(メタデータ) (2020-11-17T18:28:01Z) - LiDAR guided Small obstacle Segmentation [14.880698940693609]
道路上の小さな障害物は自動運転に不可欠である。
スパースLiDARとモノクルビジョンのマルチモーダルフレームワークを用いて,そのような障害を確実に検出する手法を提案する。
コンテキストをモノケプティックなセマンティックセグメンテーションフレームワークに追加入力として入力すると、性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-03-12T18:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。