Fugu-MT 論文翻訳(概要): Faster Training, Fewer Labels: Self-Supervised Pretraining for Fine-Grained BEV Segmentation

論文の概要: Faster Training, Fewer Labels: Self-Supervised Pretraining for Fine-Grained BEV Segmentation

arxiv url: http://arxiv.org/abs/2602.18066v1
Date: Fri, 20 Feb 2026 08:37:58 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 18:01:41.271631
Title: Faster Training, Fewer Labels: Self-Supervised Pretraining for Fine-Grained BEV Segmentation
Title（参考訳）: 高速トレーニングと低ラベル:細粒度BEVセグメンテーションのための自己監督型プレトレーニング
Authors: Daniel Busch, Christian Bohn, Thomas Kurbiel, Klaus Friedrichs, Richard Meyes, Tobias Meisen,
Abstract要約: 細粒度道路マーキングセグメンテーションのための2段階トレーニング戦略を提案する。自己教師付き事前トレーニングの間、BEVFormerの予測はイメージプレーンに異なる方法で再プロジェクションされる。その後の教師付き微調整フェーズでは、データセットの50%しか必要とせず、トレーニング時間が大幅に短縮される。
参考スコア（独自算出の注目度）: 6.399280002773129
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Dense Bird's Eye View (BEV) semantic maps are central to autonomous driving, yet current multi-camera methods depend on costly, inconsistently annotated BEV ground truth. We address this limitation with a two-phase training strategy for fine-grained road marking segmentation that removes full supervision during pretraining and halves the amount of training data during fine-tuning while still outperforming the comparable supervised baseline model. During the self-supervised pretraining, BEVFormer predictions are differentiably reprojected into the image plane and trained against multi-view semantic pseudo-labels generated by the widely used semantic segmentation model Mask2Former. A temporal loss encourages consistency across frames. The subsequent supervised fine-tuning phase requires only 50% of the dataset and significantly less training time. With our method, the fine-tuning benefits from rich priors learned during pretraining boosting the performance and BEV segmentation quality (up to +2.5pp mIoU over the fully supervised baseline) on nuScenes. It simultaneously halves the usage of annotation data and reduces total training time by up to two thirds. The results demonstrate that differentiable reprojection plus camera perspective pseudo labels yields transferable BEV features and a scalable path toward reduced-label autonomous perception.
Abstract（参考訳）: Dense Bird's Eye View (BEV) セマンティックマップは自動運転の中心であるが、現在のマルチカメラ手法はコストが高く、無矛盾に注釈付けされたBEV基底真理に依存している。この制限は、微粒な道路マーキングセグメンテーションのための2段階の訓練戦略で対処し、事前訓練中の全監督をなくし、微粒なトレーニング中のトレーニングデータの量を削減し、なおも同等の教師付きベースラインモデルを上回っている。自己教師付き事前トレーニングの間、BEVFormerの予測は画像平面に微分的に再投影され、広く使用されているセマンティックセグメンテーションモデルMask2Formerによって生成される多視点セマンティックな擬似ラベルに対して訓練される。時間的損失はフレーム間の一貫性を促進する。その後の教師付き微調整フェーズでは、データセットの50%しか必要とせず、トレーニング時間が大幅に短縮される。提案手法では, NUScenes 上での事前トレーニングにおいて得られた豊富な事前学習による微調整による性能向上と BEV のセグメンテーション品質(フル教師付きベースライン+2.5pp mIoU まで)について検討した。同時にアノテーションデータの使用量を削減し、トレーニング時間を最大3分の2まで短縮する。その結果,識別可能な再投影とカメラパースペクティブの擬似ラベルは,移動可能なBEV特徴と,低ラベル自律認識へのスケーラブルな経路をもたらすことが示された。

関連論文リスト

RESAR-BEV: An Explainable Progressive Residual Autoregressive Approach for Camera-Radar Fusion in BEV Segmentation [4.043972974168962]
Bird's-Eye-View (BEV)セマンティックセマンティックセグメンテーションは、自律運転のための包括的な環境認識を提供する。我々は,一段階のエンド・ツー・エンドアプローチを超えて進歩する進歩的な改良フレームワークであるRESAR-BEVを提案する。 nuSceneの実験では、7つの本質的な運転シーンカテゴリーで54.0% mIoUでRESAR-BEVの最先端性能を示す。
論文参考訳（メタデータ） (2025-05-10T05:10:07Z)
Should VLMs be Pre-trained with Image Data? [54.50406730361859]
画像とテキストデータの混在による事前学習により、モデルが視覚言語タスクでより良いパフォーマンスを発揮できることがわかった。平均6つの多様なタスクにおいて、1Bモデルに対して、事前学習による視覚トークンの80%を導入すると、完全に事前訓練されたモデルに視覚トークンを導入するよりも平均2%改善されることがわかった。
論文参考訳（メタデータ） (2025-03-10T17:58:19Z)
Unified Human Localization and Trajectory Prediction with Monocular Vision [64.19384064365431]
MonoTransmotionはトランスフォーマーベースのフレームワークで、モノクロカメラのみを使用して、ローカライゼーションと予測タスクを共同で解決する。両タスクを統合フレームワークで共同でトレーニングすることにより,ノイズの多い入力による実環境シナリオにおいて,我々の手法がより堅牢であることを示す。
論文参考訳（メタデータ） (2025-03-05T14:18:39Z)
RendBEV: Semantic Novel View Synthesis for Self-Supervised Bird's Eye View Segmentation [9.72227798086777]
本稿では,Bird's Eye View セマンティックセグメンテーションネットワークの自己教師型トレーニング手法である RendBEV を提案する。提案手法では, ゼロショットBEVセマンティックセマンティックセグメンテーションが可能であり, 既に競合する結果が得られている。
論文参考訳（メタデータ） (2025-02-20T18:11:44Z)
LetsMap: Unsupervised Representation Learning for Semantic BEV Mapping [23.366388601110913]
本稿では,FV画像からセマンティックなBEVマップをラベル効率よく生成するための,教師なし表現学習手法を提案する。提案手法は,2つの解離したニューラルパスを教師なし方式で,シーン幾何学とシーン意味論を独立に推論するために,ネットワークを事前訓練する。本研究では,FV画像の空間的・時間的整合性を利用して,シーン表現を符号化する新しい時間的マスク付きオートエンコーダの定式化に依存しながら,シーン形状を学習する。
論文参考訳（メタデータ） (2024-05-29T08:03:36Z)
U-BEV: Height-aware Bird's-Eye-View Segmentation and Neural Map-based Relocalization [81.76044207714637]
GPS受信が不十分な場合やセンサベースのローカライゼーションが失敗する場合、インテリジェントな車両には再ローカライゼーションが不可欠である。 Bird's-Eye-View (BEV)セグメンテーションの最近の進歩は、局所的な景観の正確な推定を可能にする。本稿では,U-NetにインスパイアされたアーキテクチャであるU-BEVについて述べる。
論文参考訳（メタデータ） (2023-10-20T18:57:38Z)
Semi-Supervised Learning for Visual Bird's Eye View Semantic Segmentation [16.3996408206659]
トレーニング中にラベルのない画像を活用することで性能を向上させるために,視覚的BEVセマンティックセマンティックセマンティックセマンティクスのための新しい半教師付きフレームワークを提案する。次に、ラベルのないデータを完全に利用する一貫性損失を提案し、セマンティックな予測だけでなく、BEV機能にもモデルを制約する。 nuScenesとArgoverseデータセットの実験により、我々のフレームワークは予測精度を効果的に向上できることが示された。
論文参考訳（メタデータ） (2023-08-28T12:23:36Z)
SkyEye: Self-Supervised Bird's-Eye-View Semantic Mapping Using Monocular Frontal View Images [26.34702432184092]
本研究では,前景からの単一単眼画像を用いた鳥眼図(BEV)意味マップ作成のための,最初の自己教師型アプローチを提案する。トレーニングでは、ビデオシーケンスのより容易に利用できるFVセマンティックアノテーションを活用することで、BEVの基底真理アノテーションの必要性を克服する。提案手法は最先端の完全教師付き手法と同等に動作し,BEVにおける直接監督の1%のみを用いて競争結果を得る。
論文参考訳（メタデータ） (2023-02-08T18:02:09Z)
Jigsaw Clustering for Unsupervised Visual Representation Learning [68.09280490213399]
本稿では,新しいjigsawクラスタリング・プレテキストタスクを提案する。本手法は画像内情報と画像間情報の両方を利用する。トレーニングバッチの半分しか使用されていない場合、コントラスト学習方法にも匹敵します。
論文参考訳（メタデータ） (2021-04-01T08:09:26Z)
Two-phase Pseudo Label Densification for Self-training based Domain Adaptation [93.03265290594278]
TPLDと呼ばれる,新規な二相擬似ラベル高密度化フレームワークを提案する。第1フェーズでは,スライディングウインドウ投票を用いて,画像内の内在的空間相関を利用して,自信のある予測を広める。第2フェーズでは,信頼度に基づく容易な分類を行う。トレーニングプロセスの容易化と騒音予測の回避を目的として,ブートストラップ機構の導入を行った。
論文参考訳（メタデータ） (2020-12-09T02:35:25Z)
Improving Semantic Segmentation via Self-Training [75.07114899941095]
半教師付きアプローチ,特に自己学習パラダイムを用いて,最先端の成果を得ることができることを示す。まず、ラベル付きデータに基づいて教師モデルを訓練し、次にラベルなしデータの大規模なセット上で擬似ラベルを生成する。私たちの堅牢なトレーニングフレームワークは、人名と擬似ラベルを共同で消化し、Cityscapes、CamVid、KITTIデータセット上で最高のパフォーマンスを達成することができます。
論文参考訳（メタデータ） (2020-04-30T17:09:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。