論文の概要: NRSeg: Noise-Resilient Learning for BEV Semantic Segmentation via Driving World Models
- arxiv url: http://arxiv.org/abs/2507.04002v1
- Date: Sat, 05 Jul 2025 11:05:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.968488
- Title: NRSeg: Noise-Resilient Learning for BEV Semantic Segmentation via Driving World Models
- Title(参考訳): NRSeg: 運転世界モデルによるBEVセマンティックセマンティックセグメンテーションのための耐雑音性学習
- Authors: Siyu Li, Fei Teng, Yihong Cao, Kailun Yang, Zhiyong Li, Yaonan Wang,
- Abstract要約: Birds' Eye View (BEV) セマンティックセグメンテーションは、エンドツーエンドの自動運転システムにおいて必須の認識タスクである。
BEVタスクの教師なしおよび半教師なし学習は、ラベル付きデータの均質な分布に起因する。
本稿では,BEVセマンティックセグメンテーションのための雑音耐性学習フレームワークであるNRSegを提案する。
- 参考スコア(独自算出の注目度): 24.239522252881336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Birds' Eye View (BEV) semantic segmentation is an indispensable perception task in end-to-end autonomous driving systems. Unsupervised and semi-supervised learning for BEV tasks, as pivotal for real-world applications, underperform due to the homogeneous distribution of the labeled data. In this work, we explore the potential of synthetic data from driving world models to enhance the diversity of labeled data for robustifying BEV segmentation. Yet, our preliminary findings reveal that generation noise in synthetic data compromises efficient BEV model learning. To fully harness the potential of synthetic data from world models, this paper proposes NRSeg, a noise-resilient learning framework for BEV semantic segmentation. Specifically, a Perspective-Geometry Consistency Metric (PGCM) is proposed to quantitatively evaluate the guidance capability of generated data for model learning. This metric originates from the alignment measure between the perspective road mask of generated data and the mask projected from the BEV labels. Moreover, a Bi-Distribution Parallel Prediction (BiDPP) is designed to enhance the inherent robustness of the model, where the learning process is constrained through parallel prediction of multinomial and Dirichlet distributions. The former efficiently predicts semantic probabilities, whereas the latter adopts evidential deep learning to realize uncertainty quantification. Furthermore, a Hierarchical Local Semantic Exclusion (HLSE) module is designed to address the non-mutual exclusivity inherent in BEV semantic segmentation tasks. Experimental results demonstrate that NRSeg achieves state-of-the-art performance, yielding the highest improvements in mIoU of 13.8% and 11.4% in unsupervised and semi-supervised BEV segmentation tasks, respectively. The source code will be made publicly available at https://github.com/lynn-yu/NRSeg.
- Abstract(参考訳): Birds' Eye View (BEV) セマンティックセグメンテーションは、エンドツーエンドの自動運転システムにおいて必須の認識タスクである。
BEVタスクの教師なしおよび半教師なし学習は、実世界のアプリケーションにとって重要なものであり、ラベル付きデータの均質な分布のため、性能が劣る。
本研究では,BEVセグメンテーションを堅牢化するためのラベル付きデータの多様性を高めるために,運転世界モデルからの合成データの可能性を検討する。
しかし,予備的な結果から,合成データの生成ノイズが効率的なBEVモデル学習を損なうことが明らかとなった。
本稿では,BEVセマンティックセグメンテーションのための雑音耐性学習フレームワークであるNRSegを提案する。
具体的には、モデル学習のための生成データのガイダンス能力を定量的に評価するために、PGCM( Perspective-Geometry Consistency Metric)を提案する。
この基準は、生成されたデータのパースペクティブロードマスクと、BEVラベルから投影されたマスクとのアライメント尺度から導かれる。
さらに、BiDPP(Bi-Distribution Parallel Prediction)は、学習過程が多重項分布とディリクレ分布の並列予測によって制約されるモデル固有の堅牢性を高めるように設計されている。
前者は意味的確率を効率的に予測し、後者は明らかな深層学習を採用して不確実な定量化を実現する。
さらに、階層的局所意味抽出(HLSE)モジュールは、BEVセマンティックセグメンテーションタスクに固有の非ミューチュアル排他性に対処するように設計されている。
実験の結果、NRSegは最先端の性能を達成し、mIoUは13.8%、BEVセグメンテーションタスクは11.4%向上した。
ソースコードはhttps://github.com/lynn-yu/NRSeg.comで公開されている。
関連論文リスト
- SimBEV: A Synthetic Multi-Task Multi-Sensor Driving Data Generation Tool and Dataset [101.51012770913627]
近年,BEV(Bird's-eye view)の認識は自律運転において大きな注目を集めている。
SimBEVは、広範囲にスケーラブルでスケーラブルなランダム化された合成データ生成ツールである。
SimBEVは、さまざまな運転シナリオからの注釈付き知覚データの大規模なコレクションであるSimBEVデータセットを作成するために使用される。
論文 参考訳(メタデータ) (2025-02-04T00:00:06Z) - BEVal: A Cross-dataset Evaluation Study of BEV Segmentation Models for Autonomous Driving [3.4113606473878386]
我々は最先端のBEVセグメンテーションモデルの包括的クロスデータセット評価を行う。
本稿では,カメラやLiDARなどの各種センサがモデルの一般化能力に与える影響について検討する。
論文 参考訳(メタデータ) (2024-08-29T07:49:31Z) - BEVWorld: A Multimodal World Simulator for Autonomous Driving via Scene-Level BEV Latents [56.33989853438012]
BEVWorldは,マルチモーダルセンサ入力を統一的でコンパクトなBird's Eye View潜在空間に変換し,全体的環境モデリングを行うフレームワークである。
提案する世界モデルは,多モードトークン化器と遅延BEVシーケンス拡散モデルという2つの主要成分から構成される。
論文 参考訳(メタデータ) (2024-07-08T07:26:08Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Semi-Supervised Learning for Visual Bird's Eye View Semantic
Segmentation [16.3996408206659]
トレーニング中にラベルのない画像を活用することで性能を向上させるために,視覚的BEVセマンティックセマンティックセマンティックセマンティクスのための新しい半教師付きフレームワークを提案する。
次に、ラベルのないデータを完全に利用する一貫性損失を提案し、セマンティックな予測だけでなく、BEV機能にもモデルを制約する。
nuScenesとArgoverseデータセットの実験により、我々のフレームワークは予測精度を効果的に向上できることが示された。
論文 参考訳(メタデータ) (2023-08-28T12:23:36Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。