論文の概要: SAM-Enhanced Segmentation on Road Datasets: Balancing Critical Classes in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2605.28136v1
- Date: Wed, 27 May 2026 08:21:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.887096
- Title: SAM-Enhanced Segmentation on Road Datasets: Balancing Critical Classes in Autonomous Driving
- Title(参考訳): SAMによる道路データセットのセグメンテーション:自動運転におけるクリティカルクラスとのバランス
- Authors: Toomas Tahves, Mauro Bellone, Junyi Gu, Raivo Sell,
- Abstract要約: Zenseact Open dataset (ZOD)は、リッチなマルチセンサーデータを提供するが、バウンディングボックスラベルのみを提供する。
我々のパイプラインは、境界ボックスをセマンティックマスクに変換することで、ZODの高密度なピクセルレベルのアノテーションを生成する。
複雑なセマンティックセグメンテーションは自律運転には不可欠だが、多くのマルチモーダルデータセットにはピクセルレベルのアノテーションがない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense semantic segmentation is essential for autonomous driving, yet many multi-modal datasets lack pixel-level annotations. The Zenseact Open Dataset (ZOD) provides rich multi-sensor data but only bounding-box labels, limiting its use for segmentation research. Our primary contribution is a Segment Anything Model (SAM)-based annotation pipeline that produces dense, pixel-level annotations for ZOD by converting bounding boxes into semantic masks. In this pilot study, we process over 100,000 frames and manually curate a 2,300-frame subset (36% acceptance rate) to establish a reliable baseline. Using these annotations, we evaluate transformer-based CLFT and CNN-based DeepLabV3+ architectures across diverse weather conditions, achieving up to 48.1% mIoU with CLFT-Hybrid. To address extreme class imbalance, where pedestrians, cyclists, and signs constitute less than 1% of pixels, we explore specialized models targeting rare classes. We further validate the pipeline on the Iseauto autonomous-vehicle platform, achieving 77.5% mIoU, and show that SAM-derived representations transfer effectively across sensor configurations via bidirectional transfer learning. All code and annotations are released to support reproducible research.
- Abstract(参考訳): 複雑なセマンティックセグメンテーションは自律運転には不可欠だが、多くのマルチモーダルデータセットにはピクセルレベルのアノテーションがない。
Zenseact Open Dataset (ZOD)は、リッチなマルチセンサーデータを提供するが、バウンディングボックスラベルのみを提供し、セグメンテーション研究での使用を制限する。
我々の主な貢献はSegment Anything Model(SAM)ベースのアノテーションパイプラインで、境界ボックスをセマンティックマスクに変換することで、ZODの高密度なピクセルレベルのアノテーションを生成する。
本研究では,10万フレーム以上を処理し,2300フレームのサブセット(受け入れ率36%)を手作業でキュレートし,信頼性の高いベースラインを確立する。
これらのアノテーションを用いて,変圧器を用いたCLFTおよびCNNベースのDeepLabV3+アーキテクチャを様々な気象条件で評価し,CLFT-Hybridで最大48.1%のmIoUを実現した。
歩行者、サイクリスト、標識が1%未満を占める極端なクラス不均衡に対処するため、稀なクラスを対象とする特殊なモデルを検討する。
さらに,伊勢自動車プラットフォーム上でのパイプラインの検証を行い,77.5% mIoUを達成し,SAM由来の表現が双方向移動学習を通じてセンサ構成間で効果的に伝達されることを示す。
すべてのコードとアノテーションがリリースされ、再現可能な研究をサポートする。
関連論文リスト
- SegEarth-OV3: Exploring SAM 3 for Open-Vocabulary Semantic Segmentation in Remote Sensing Images [51.42466259821335]
我々は, SAM 3 をリモートセンシング OVSS タスクに適用するための予備的な検討を行った。
まず,SAM 3のセマンティックセグメンテーションヘッドとトランスフォーマーデコーダの出力を組み合わせたマスク融合戦略を実装した。
第2に、シーンに存在しないカテゴリをフィルタリングするために、プレゼンスヘッドからのプレゼンススコアを利用する。
論文 参考訳(メタデータ) (2025-12-09T15:42:28Z) - Segment Any Vehicle: Semantic and Visual Context Driven SAM and A Benchmark [12.231630639022335]
SAMベースのエンコーダデコーダ,車両部品知識グラフ,コンテキストサンプル検索符号化モジュールの3つのコアコンポーネントからなる新しいフレームワークであるSAVを提案する。
知識グラフは、構造オントロジーを通じて車両部品間の空間的および幾何学的関係を明示的にモデル化し、事前構造的知識を効果的に符号化する。
我々は,11,665の高品質なピクセルレベルのアノテーションを含む自動車部品セグメンテーションのための大規模ベンチマークデータセット,VabySeg10Kを紹介した。
論文 参考訳(メタデータ) (2025-08-06T09:46:49Z) - Navya3DSeg -- Navya 3D Semantic Segmentation Dataset & split generation
for autonomous vehicles [63.20765930558542]
3Dセマンティックデータは、障害物検出やエゴ-車両の局所化といった中核的な認識タスクに有用である。
そこで我々は,大規模生産段階の運用領域に対応する多様なラベル空間を持つ新しいデータセットであるNavala 3D(Navya3DSeg)を提案する。
ラベルのない23のラベル付きシーケンスと25の補足シーケンスが含まれており、ポイントクラウド上の自己教師付きおよび半教師付きセマンティックセマンティックセグメンテーションベンチマークを探索するために設計された。
論文 参考訳(メタデータ) (2023-02-16T13:41:19Z) - LESS: Label-Efficient Semantic Segmentation for LiDAR Point Clouds [62.49198183539889]
我々は,LiDAR点雲を用いた屋外シーンのためのラベル効率のよいセマンティックセマンティックセマンティクスパイプラインを提案する。
本手法は,半弱教師付き学習を用いて,効率的なラベリング手法を設計する。
提案手法は,100%ラベル付き完全教師付き手法と比較して,さらに競争力が高い。
論文 参考訳(メタデータ) (2022-10-14T19:13:36Z) - SELMA: SEmantic Large-scale Multimodal Acquisitions in Variable Weather,
Daytime and Viewpoints [36.57734409668748]
セマンティックセグメンテーションのための新しいデータセットであるSELMAを紹介する。
RGB、ディープ、セマンティックカメラ、LiDARを含む24種類のセンサーから取得された30万以上のユニークなウェイポイントを含んでいる。
CARLAは、自動運転シナリオで合成データを生成するためのオープンソースのシミュレータである。
論文 参考訳(メタデータ) (2022-04-20T21:22:56Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。