論文の概要: Semi-Supervised Learning for Visual Bird's Eye View Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2308.14525v2
- Date: Mon, 26 Feb 2024 16:21:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 22:28:43.926442
- Title: Semi-Supervised Learning for Visual Bird's Eye View Semantic
Segmentation
- Title(参考訳): 視覚鳥の目視意味セグメンテーションのための半教師あり学習
- Authors: Junyu Zhu, Lina Liu, Yu Tang, Feng Wen, Wanlong Li and Yong Liu
- Abstract要約: トレーニング中にラベルのない画像を活用することで性能を向上させるために,視覚的BEVセマンティックセマンティックセマンティックセマンティクスのための新しい半教師付きフレームワークを提案する。
次に、ラベルのないデータを完全に利用する一貫性損失を提案し、セマンティックな予測だけでなく、BEV機能にもモデルを制約する。
nuScenesとArgoverseデータセットの実験により、我々のフレームワークは予測精度を効果的に向上できることが示された。
- 参考スコア(独自算出の注目度): 16.3996408206659
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual bird's eye view (BEV) semantic segmentation helps autonomous vehicles
understand the surrounding environment only from images, including static
elements (e.g., roads) and dynamic elements (e.g., vehicles, pedestrians).
However, the high cost of annotation procedures of full-supervised methods
limits the capability of the visual BEV semantic segmentation, which usually
needs HD maps, 3D object bounding boxes, and camera extrinsic matrixes. In this
paper, we present a novel semi-supervised framework for visual BEV semantic
segmentation to boost performance by exploiting unlabeled images during the
training. A consistency loss that makes full use of unlabeled data is then
proposed to constrain the model on not only semantic prediction but also the
BEV feature. Furthermore, we propose a novel and effective data augmentation
method named conjoint rotation which reasonably augments the dataset while
maintaining the geometric relationship between the front-view images and the
BEV semantic segmentation. Extensive experiments on the nuScenes and Argoverse
datasets show that our semi-supervised framework can effectively improve
prediction accuracy. To the best of our knowledge, this is the first work that
explores improving visual BEV semantic segmentation performance using unlabeled
data. The code is available at https://github.com/Junyu-Z/Semi-BEVseg
- Abstract(参考訳): 視覚鳥の目視(BEV)セマンティックセグメンテーションは、自動運転車が周囲の環境を静的な要素(道路など)や動的要素(自動車、歩行者など)を含む画像からのみ理解するのに役立つ。
しかし、フル教師付き手法のアノテーション手順の高コストは、通常HDマップ、3Dオブジェクト境界ボックス、カメラ外部行列を必要とする視覚的BEVセマンティックセグメンテーションの能力を制限している。
本稿では,学習中にラベルなし画像を利用することにより,視覚 bev 意味セグメンテーションを実現するための,新しい半教師付きフレームワークを提案する。
次に、ラベルのないデータを完全に利用する一貫性損失を提案し、セマンティック予測だけでなく、BEV機能にもモデルを制約する。
さらに,前景画像とBEVセマンティックセグメンテーションの幾何学的関係を維持しつつ,データセットを合理的に増強する,結合回転という新しい効果的なデータ拡張手法を提案する。
nuscenesとargoverseデータセットに関する広範な実験は、半教師付きフレームワークが予測精度を効果的に向上できることを示しています。
我々の知る限りでは、未ラベルデータを用いた視覚的BEVセマンティックセマンティックセマンティクス性能の改善を探求する最初の研究である。
コードはhttps://github.com/junyu-z/semi-bevsegで入手できる。
関連論文リスト
- OE-BevSeg: An Object Informed and Environment Aware Multimodal Framework for Bird's-eye-view Vehicle Semantic Segmentation [57.2213693781672]
Bird's-eye-view (BEV)セマンティックセマンティックセグメンテーションは自律運転システムにおいて重要である。
本稿では,BEVセグメンテーション性能を向上させるエンドツーエンドマルチモーダルフレームワークであるOE-BevSegを提案する。
提案手法は,車両セグメンテーションのためのnuScenesデータセットにおいて,最先端の成果を大きなマージンで達成する。
論文 参考訳(メタデータ) (2024-07-18T03:48:22Z) - LetsMap: Unsupervised Representation Learning for Semantic BEV Mapping [23.366388601110913]
本稿では,FV画像からセマンティックなBEVマップをラベル効率よく生成するための,教師なし表現学習手法を提案する。
提案手法は,2つの解離したニューラルパスを教師なし方式で,シーン幾何学とシーン意味論を独立に推論するために,ネットワークを事前訓練する。
本研究では,FV画像の空間的・時間的整合性を利用して,シーン表現を符号化する新しい時間的マスク付きオートエンコーダの定式化に依存しながら,シーン形状を学習する。
論文 参考訳(メタデータ) (2024-05-29T08:03:36Z) - Improving Bird's Eye View Semantic Segmentation by Task Decomposition [42.57351039508863]
元のBEVセグメンテーションタスクを,BEVマップ再構成とRGB-BEV機能アライメントという2つの段階に分割する。
我々のアプローチは、知覚と生成を異なるステップに組み合わせることの複雑さを単純化し、複雑で挑戦的なシーンを効果的に扱うためのモデルを構築します。
論文 参考訳(メタデータ) (2024-04-02T13:19:45Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - A Cross-Scale Hierarchical Transformer with Correspondence-Augmented
Attention for inferring Bird's-Eye-View Semantic Segmentation [13.013635162859108]
マルチカメラビュー画像に条件付きBEVセマンティックセマンティックセマンティクスを推定することは、安価なデバイスとリアルタイム処理としてコミュニティで人気がある。
セマンティックセグメンテーション推論のための対応強化された注目度を持つ新しいクロススケール階層変換器を提案する。
マルチカメラビュー画像上でのBEVセマンティックセマンティックセグメンテーションの推測における最先端性能を有する。
論文 参考訳(メタデータ) (2023-04-07T13:52:47Z) - Delving into the Devils of Bird's-eye-view Perception: A Review,
Evaluation and Recipe [115.31507979199564]
鳥眼視(BEV)における知覚タスクの強力な表現の学習は、産業と学界の両方から注目されつつある。
センサーの構成が複雑化するにつれて、異なるセンサーからの複数のソース情報の統合と、統一されたビューにおける特徴の表現が重要になる。
BEV知覚の中核的な問題は、(a)視点からBEVへの視点変換を通して失われた3D情報を再構成する方法、(b)BEVグリッドにおける基底真理アノテーションの取得方法、(d)センサー構成が異なるシナリオでアルゴリズムを適応・一般化する方法にある。
論文 参考訳(メタデータ) (2022-09-12T15:29:13Z) - GitNet: Geometric Prior-based Transformation for Birds-Eye-View
Segmentation [105.19949897812494]
Birds-eye-view (BEV) セマンティックセマンティックセグメンテーションは自動運転に不可欠である。
本稿では,GitNetという新しい2段階のGeometry Preside-based Transformationフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-16T06:46:45Z) - BEVSegFormer: Bird's Eye View Semantic Segmentation From Arbitrary
Camera Rigs [3.5728676902207988]
任意のカメラリグからのBEVセマンティックセマンティックセグメンテーションのための効果的なトランスフォーマーベース手法を提案する。
具体的には、まず任意のカメラから画像の特徴を共有バックボーンで符号化する。
BEV-to-imageビュー変換を行うために、効率的なマルチカメラ変形型アテンションユニットを設計する。
論文 参考訳(メタデータ) (2022-03-08T12:39:51Z) - Unsupervised Semantic Segmentation by Contrasting Object Mask Proposals [78.12377360145078]
画素埋め込みを学習するために、コントラスト最適化の目的として、予め決められた事前を取り入れた新しい2段階フレームワークを導入する。
これは、プロキシタスクやエンドツーエンドのクラスタリングに依存する既存の作業から大きく逸脱している。
特に、PASCALでラベル付き例の1%だけを用いて学習した表現を微調整すると、7.1% mIoUで教師付き ImageNet の事前トレーニングを上回ります。
論文 参考訳(メタデータ) (2021-02-11T18:54:47Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。