論文の概要: BEV-Seg: Bird's Eye View Semantic Segmentation Using Geometry and
Semantic Point Cloud
- arxiv url: http://arxiv.org/abs/2006.11436v2
- Date: Tue, 23 Jun 2020 16:45:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 04:59:38.924874
- Title: BEV-Seg: Bird's Eye View Semantic Segmentation Using Geometry and
Semantic Point Cloud
- Title(参考訳): BEV-Seg:幾何学と意味点雲を用いた鳥の目視セマンティックセグメンテーション
- Authors: Mong H. Ng, Kaahan Radia, Jianfei Chen, Dequan Wang, Ionel Gog, and
Joseph E. Gonzalez
- Abstract要約: 我々は,BEVにおける画素単位のセマンティックセマンティックセマンティックセマンティクスを予測するタスクである,鳥の目の意味セマンティクスセマンティクスに着目した。
このタスクには、サイドビューからバードビューへのビュー変換と、未確認領域への学習の移行という2つの大きな課題がある。
新たな2段階認識パイプラインは,画素深度を明示的に予測し,効率よく画素セマンティクスと組み合わせる。
- 参考スコア(独自算出の注目度): 21.29622194272066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bird's-eye-view (BEV) is a powerful and widely adopted representation for
road scenes that captures surrounding objects and their spatial locations,
along with overall context in the scene. In this work, we focus on bird's eye
semantic segmentation, a task that predicts pixel-wise semantic segmentation in
BEV from side RGB images. This task is made possible by simulators such as
Carla, which allow for cheap data collection, arbitrary camera placements, and
supervision in ways otherwise not possible in the real world. There are two
main challenges to this task: the view transformation from side view to bird's
eye view, as well as transfer learning to unseen domains. Existing work
transforms between views through fully connected layers and transfer learns via
GANs. This suffers from a lack of depth reasoning and performance degradation
across domains. Our novel 2-staged perception pipeline explicitly predicts
pixel depths and combines them with pixel semantics in an efficient manner,
allowing the model to leverage depth information to infer objects' spatial
locations in the BEV. In addition, we transfer learning by abstracting
high-level geometric features and predicting an intermediate representation
that is common across different domains. We publish a new dataset called
BEVSEG-Carla and show that our approach improves state-of-the-art by 24% mIoU
and performs well when transferred to a new domain.
- Abstract(参考訳): バードアイビュー(英: Bird's-eye-view、BEV)は、周囲の物体とその空間的位置を捉え、シーン全体のコンテキストを捉える、強力で広く採用されている道路シーンの表現である。
本研究では,bevの画素別意味セグメンテーションをrgb画像から予測するタスクであるbird's eye semantic segmentationに着目した。
このタスクはCarlaのようなシミュレータによって実現され、安価なデータ収集、任意のカメラ配置、現実世界では不可能な方法での監視を可能にする。
このタスクには、サイドビューからバードアイビューへのビュー変換と、目に見えないドメインへの学習の転送という、2つの大きな課題がある。
既存の作業はビューを完全に接続されたレイヤに変換し、転送はganで学習する。
これはドメイン間の深い推論とパフォーマンス劣化の欠如に悩まされる。
新たな2段階認識パイプラインは,BEV内の物体の空間的位置を推定するための深度情報を活用するために,画素の深度を明示的に予測し,それらを効率よく画素のセマンティクスと組み合わせる。
さらに,高レベルな幾何学的特徴を抽象化し,異なる領域にまたがる中間表現を予測することで,学習を伝達する。
BEVSEG-Carlaと呼ばれる新しいデータセットを公開し、我々のアプローチが最先端の24%のmIoUを向上し、新しいドメインに転送するとうまく動作することを示す。
関連論文リスト
- Semi-Supervised Learning for Visual Bird's Eye View Semantic
Segmentation [16.3996408206659]
トレーニング中にラベルのない画像を活用することで性能を向上させるために,視覚的BEVセマンティックセマンティックセマンティックセマンティクスのための新しい半教師付きフレームワークを提案する。
次に、ラベルのないデータを完全に利用する一貫性損失を提案し、セマンティックな予測だけでなく、BEV機能にもモデルを制約する。
nuScenesとArgoverseデータセットの実験により、我々のフレームワークは予測精度を効果的に向上できることが示された。
論文 参考訳(メタデータ) (2023-08-28T12:23:36Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - GitNet: Geometric Prior-based Transformation for Birds-Eye-View
Segmentation [105.19949897812494]
Birds-eye-view (BEV) セマンティックセマンティックセグメンテーションは自動運転に不可欠である。
本稿では,GitNetという新しい2段階のGeometry Preside-based Transformationフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-16T06:46:45Z) - Structured Bird's-Eye-View Traffic Scene Understanding from Onboard
Images [128.881857704338]
本研究では,BEV座標における局所道路網を表す有向グラフを,単眼カメラ画像から抽出する問題について検討する。
提案手法は,BEV平面上の動的物体を検出するために拡張可能であることを示す。
我々は、強力なベースラインに対するアプローチを検証するとともに、ネットワークが優れたパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-10-05T12:40:33Z) - PIT: Position-Invariant Transform for Cross-FoV Domain Adaptation [53.428312630479816]
フィールド・オブ・ビュー(FoV)ギャップは、ソースとターゲットドメイン間の顕著なインスタンスの出現差を誘導する。
本研究では,異なる領域における画像の整合性を改善するために,textbfPosition-Invariant Transform (PIT)を提案する。
論文 参考訳(メタデータ) (2021-08-16T15:16:47Z) - Unsupervised Domain Adaptation for Video Semantic Segmentation [91.30558794056054]
セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションからリアルに知識を伝達できるため、大きな人気を集めている。
本研究では,ビデオセマンティック・アプローチのための教師なし領域適応という,このタスクの新たなビデオ拡張について述べる。
提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-07-23T07:18:20Z) - Combining Semantic Guidance and Deep Reinforcement Learning For
Generating Human Level Paintings [22.889059874754242]
脳卒中に基づく非フォトリアリスティック画像の生成は、コンピュータビジョンコミュニティにおいて重要な問題である。
従来の手法は、前景オブジェクトの位置、規模、正当性にほとんど変化のないデータセットに限られていた。
本研究では,1)前景と背景の筆画の区別を学習するための2段階の塗装手順を備えたセマンティック・ガイダンス・パイプラインを提案する。
論文 参考訳(メタデータ) (2020-11-25T09:00:04Z) - A Sim2Real Deep Learning Approach for the Transformation of Images from
Multiple Vehicle-Mounted Cameras to a Semantically Segmented Image in Bird's
Eye View [0.0]
カメラの視点を鳥の視線(BEV)に変換すると、距離をより容易に推定できる。
本稿では,複数の車載カメラから補正された360度BEV画像を得る方法について述べる。
ニューラルネットワークのアプローチは、手動でラベル付けされたデータに頼るのではなく、実世界のデータに対してうまく一般化するように、合成データセットでトレーニングされる。
論文 参考訳(メタデータ) (2020-05-08T14:54:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。