Fugu-MT 論文翻訳(概要): Semi-Supervised Learning for Visual Bird's Eye View Semantic Segmentation

論文の概要: Semi-Supervised Learning for Visual Bird's Eye View Semantic Segmentation

arxiv url: http://arxiv.org/abs/2308.14525v2
Date: Mon, 26 Feb 2024 16:21:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 22:28:43.926442
Title: Semi-Supervised Learning for Visual Bird's Eye View Semantic Segmentation
Title（参考訳）: 視覚鳥の目視意味セグメンテーションのための半教師あり学習
Authors: Junyu Zhu, Lina Liu, Yu Tang, Feng Wen, Wanlong Li and Yong Liu
Abstract要約: トレーニング中にラベルのない画像を活用することで性能を向上させるために,視覚的BEVセマンティックセマンティックセマンティックセマンティクスのための新しい半教師付きフレームワークを提案する。次に、ラベルのないデータを完全に利用する一貫性損失を提案し、セマンティックな予測だけでなく、BEV機能にもモデルを制約する。 nuScenesとArgoverseデータセットの実験により、我々のフレームワークは予測精度を効果的に向上できることが示された。
参考スコア（独自算出の注目度）: 16.3996408206659
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual bird's eye view (BEV) semantic segmentation helps autonomous vehicles understand the surrounding environment only from images, including static elements (e.g., roads) and dynamic elements (e.g., vehicles, pedestrians). However, the high cost of annotation procedures of full-supervised methods limits the capability of the visual BEV semantic segmentation, which usually needs HD maps, 3D object bounding boxes, and camera extrinsic matrixes. In this paper, we present a novel semi-supervised framework for visual BEV semantic segmentation to boost performance by exploiting unlabeled images during the training. A consistency loss that makes full use of unlabeled data is then proposed to constrain the model on not only semantic prediction but also the BEV feature. Furthermore, we propose a novel and effective data augmentation method named conjoint rotation which reasonably augments the dataset while maintaining the geometric relationship between the front-view images and the BEV semantic segmentation. Extensive experiments on the nuScenes and Argoverse datasets show that our semi-supervised framework can effectively improve prediction accuracy. To the best of our knowledge, this is the first work that explores improving visual BEV semantic segmentation performance using unlabeled data. The code is available at https://github.com/Junyu-Z/Semi-BEVseg
Abstract（参考訳）: 視覚鳥の目視(BEV)セマンティックセグメンテーションは、自動運転車が周囲の環境を静的な要素(道路など)や動的要素(自動車、歩行者など)を含む画像からのみ理解するのに役立つ。しかし、フル教師付き手法のアノテーション手順の高コストは、通常HDマップ、3Dオブジェクト境界ボックス、カメラ外部行列を必要とする視覚的BEVセマンティックセグメンテーションの能力を制限している。本稿では,学習中にラベルなし画像を利用することにより,視覚 bev 意味セグメンテーションを実現するための,新しい半教師付きフレームワークを提案する。次に、ラベルのないデータを完全に利用する一貫性損失を提案し、セマンティック予測だけでなく、BEV機能にもモデルを制約する。さらに,前景画像とBEVセマンティックセグメンテーションの幾何学的関係を維持しつつ,データセットを合理的に増強する,結合回転という新しい効果的なデータ拡張手法を提案する。 nuscenesとargoverseデータセットに関する広範な実験は、半教師付きフレームワークが予測精度を効果的に向上できることを示しています。我々の知る限りでは、未ラベルデータを用いた視覚的BEVセマンティックセマンティックセマンティクス性能の改善を探求する最初の研究である。コードはhttps://github.com/junyu-z/semi-bevsegで入手できる。

関連論文リスト

Unified Human Localization and Trajectory Prediction with Monocular Vision [64.19384064365431]
MonoTransmotionはトランスフォーマーベースのフレームワークで、モノクロカメラのみを使用して、ローカライゼーションと予測タスクを共同で解決する。両タスクを統合フレームワークで共同でトレーニングすることにより,ノイズの多い入力による実環境シナリオにおいて,我々の手法がより堅牢であることを示す。
論文参考訳（メタデータ） (2025-03-05T14:18:39Z)
RendBEV: Semantic Novel View Synthesis for Self-Supervised Bird's Eye View Segmentation [9.72227798086777]
本稿では,Bird's Eye View セマンティックセグメンテーションネットワークの自己教師型トレーニング手法である RendBEV を提案する。提案手法では, ゼロショットBEVセマンティックセマンティックセグメンテーションが可能であり, 既に競合する結果が得られている。
論文参考訳（メタデータ） (2025-02-20T18:11:44Z)
BEVPose: Unveiling Scene Semantics through Pose-Guided Multi-Modal BEV Alignment [8.098296280937518]
本稿では,カメラとライダーデータからBEV表現を統合するフレームワークであるBEVPoseについて,センサポーズを誘導監視信号として用いた。ポーズ情報を活用することで,環境の幾何学的側面と意味的側面の両方を捉えた潜在的BEV埋め込みの学習を容易にし,マルチモーダルな感覚入力を調整・融合する。
論文参考訳（メタデータ） (2024-10-28T12:40:27Z)
OE-BevSeg: An Object Informed and Environment Aware Multimodal Framework for Bird's-eye-view Vehicle Semantic Segmentation [57.2213693781672]
Bird's-eye-view (BEV)セマンティックセマンティックセグメンテーションは自律運転システムにおいて重要である。本稿では,BEVセグメンテーション性能を向上させるエンドツーエンドマルチモーダルフレームワークであるOE-BevSegを提案する。提案手法は,車両セグメンテーションのためのnuScenesデータセットにおいて,最先端の成果を大きなマージンで達成する。
論文参考訳（メタデータ） (2024-07-18T03:48:22Z)
LetsMap: Unsupervised Representation Learning for Semantic BEV Mapping [23.366388601110913]
本稿では,FV画像からセマンティックなBEVマップをラベル効率よく生成するための,教師なし表現学習手法を提案する。提案手法は,2つの解離したニューラルパスを教師なし方式で,シーン幾何学とシーン意味論を独立に推論するために,ネットワークを事前訓練する。本研究では,FV画像の空間的・時間的整合性を利用して,シーン表現を符号化する新しい時間的マスク付きオートエンコーダの定式化に依存しながら,シーン形状を学習する。
論文参考訳（メタデータ） (2024-05-29T08:03:36Z)
Improving Bird's Eye View Semantic Segmentation by Task Decomposition [42.57351039508863]
元のBEVセグメンテーションタスクを,BEVマップ再構成とRGB-BEV機能アライメントという2つの段階に分割する。我々のアプローチは、知覚と生成を異なるステップに組み合わせることの複雑さを単純化し、複雑で挑戦的なシーンを効果的に扱うためのモデルを構築します。
論文参考訳（メタデータ） (2024-04-02T13:19:45Z)
Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。 ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文参考訳（メタデータ） (2023-06-01T08:47:06Z)
Delving into the Devils of Bird's-eye-view Perception: A Review, Evaluation and Recipe [115.31507979199564]
鳥眼視(BEV)における知覚タスクの強力な表現の学習は、産業と学界の両方から注目されつつある。センサーの構成が複雑化するにつれて、異なるセンサーからの複数のソース情報の統合と、統一されたビューにおける特徴の表現が重要になる。 BEV知覚の中核的な問題は、(a)視点からBEVへの視点変換を通して失われた3D情報を再構成する方法、(b)BEVグリッドにおける基底真理アノテーションの取得方法、(d)センサー構成が異なるシナリオでアルゴリズムを適応・一般化する方法にある。
論文参考訳（メタデータ） (2022-09-12T15:29:13Z)
GitNet: Geometric Prior-based Transformation for Birds-Eye-View Segmentation [105.19949897812494]
Birds-eye-view (BEV) セマンティックセマンティックセグメンテーションは自動運転に不可欠である。本稿では,GitNetという新しい2段階のGeometry Preside-based Transformationフレームワークを提案する。
論文参考訳（メタデータ） (2022-04-16T06:46:45Z)
BEVSegFormer: Bird's Eye View Semantic Segmentation From Arbitrary Camera Rigs [3.5728676902207988]
任意のカメラリグからのBEVセマンティックセマンティックセグメンテーションのための効果的なトランスフォーマーベース手法を提案する。具体的には、まず任意のカメラから画像の特徴を共有バックボーンで符号化する。 BEV-to-imageビュー変換を行うために、効率的なマルチカメラ変形型アテンションユニットを設計する。
論文参考訳（メタデータ） (2022-03-08T12:39:51Z)
Unsupervised Semantic Segmentation by Contrasting Object Mask Proposals [78.12377360145078]
画素埋め込みを学習するために、コントラスト最適化の目的として、予め決められた事前を取り入れた新しい2段階フレームワークを導入する。これは、プロキシタスクやエンドツーエンドのクラスタリングに依存する既存の作業から大きく逸脱している。特に、PASCALでラベル付き例の1%だけを用いて学習した表現を微調整すると、7.1% mIoUで教師付き ImageNet の事前トレーニングを上回ります。
論文参考訳（メタデータ） (2021-02-11T18:54:47Z)
Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文参考訳（メタデータ） (2020-12-09T12:40:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。