論文の概要: HFT: Lifting Perspective Representations via Hybrid Feature
Transformation
- arxiv url: http://arxiv.org/abs/2204.05068v1
- Date: Mon, 11 Apr 2022 13:09:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 23:44:26.121398
- Title: HFT: Lifting Perspective Representations via Hybrid Feature
Transformation
- Title(参考訳): hft: ハイブリッド機能変換による視点表現の引き上げ
- Authors: Jiayu Zou, Junrui Xiao, Zheng Zhu, Junjie Huang, Guan Huang, Dalong
Du, Xingang Wang
- Abstract要約: Bird's Eye View (BEV) セマンティックセグメンテーションは、高レベルのシーン知覚において最も困難なタスクの1つである。
フロントビューからBEVへの特徴変換は、BEVセマンティックセグメンテーションの重要な技術である。
ハイブリッド特徴変換モジュール(HFT)を用いた新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 19.508268215468068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous driving requires accurate and detailed Bird's Eye View (BEV)
semantic segmentation for decision making, which is one of the most challenging
tasks for high-level scene perception. Feature transformation from frontal view
to BEV is the pivotal technology for BEV semantic segmentation. Existing works
can be roughly classified into two categories, i.e., Camera model-Based Feature
Transformation (CBFT) and Camera model-Free Feature Transformation (CFFT). In
this paper, we empirically analyze the vital differences between CBFT and CFFT.
The former transforms features based on the flat-world assumption, which may
cause distortion of regions lying above the ground plane. The latter is limited
in the segmentation performance due to the absence of geometric priors and
time-consuming computation. In order to reap the benefits and avoid the
drawbacks of CBFT and CFFT, we propose a novel framework with a Hybrid Feature
Transformation module (HFT). Specifically, we decouple the feature maps
produced by HFT for estimating the layout of outdoor scenes in BEV.
Furthermore, we design a mutual learning scheme to augment hybrid
transformation by applying feature mimicking. Notably, extensive experiments
demonstrate that with negligible extra overhead, HFT achieves a relative
improvement of 13.3% on the Argoverse dataset and 16.8% on the KITTI 3D Object
datasets compared to the best-performing existing method. The codes are
available at https://github.com/JiayuZou2020/HFT.
- Abstract(参考訳): 自律運転には意思決定のための正確で詳細なBird's Eye View (BEV)セマンティックセマンティックセグメンテーションが必要である。
フロントビューからBEVへの特徴変換は、BEVセマンティックセグメンテーションの重要な技術である。
既存の作品は、カメラモデルベース特徴変換(CBFT)とカメラモデルフリー特徴変換(CFFT)の2つのカテゴリに分類される。
本稿では,CBFTとCFFTの相違点を実験的に解析する。
前者は平面上に位置する領域の歪みを引き起こすフラットワールドの仮定に基づいて特徴を変換する。
後者は、幾何学的な事前処理や時間を要する計算がないため、セグメンテーション性能に制限がある。
cbftとcfftのメリットを享受し,欠点を回避するために,ハイブリッド機能変換モジュール(hft)を用いた新しいフレームワークを提案する。
具体的には,hft が生成する特徴マップを分離し,bev の屋外シーンのレイアウトを推定する。
さらに,特徴模倣を適用し,ハイブリッドトランスフォーメーションを促進するための相互学習スキームを考案する。
特に、膨大な実験により、HFTはArgoverseデータセットで13.3%、KITTI 3Dオブジェクトデータセットで16.8%の相対的な改善を達成している。
コードはhttps://github.com/jiayuzou2020/hftで入手できる。
関連論文リスト
- EVT: Efficient View Transformation for Multi-Modal 3D Object Detection [2.9848894641223302]
効率的なビュー変換(EVT)による新しい3次元物体検出法を提案する。
EVTは、アダプティブサンプリングとアダプティブプロジェクション(ASAP)を使用して、3Dサンプリングポイントとアダプティブカーネルを生成する。
トランスデコーダ内で得られたマルチモーダルBEV機能を効果的に活用するように設計されている。
論文 参考訳(メタデータ) (2024-11-16T06:11:10Z) - PCF-Lift: Panoptic Lifting by Probabilistic Contrastive Fusion [80.79938369319152]
我々は,PCF(Probabilis-tic Contrastive Fusion)に基づくPCF-Liftという新しいパイプラインを設計する。
私たちのPCFリフトは、ScanNetデータセットやMessy Roomデータセット(シーンレベルのPQが4.4%改善)など、広く使用されているベンチマークにおいて、最先端の手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T16:06:59Z) - DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [104.87876441265593]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。
非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。
DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文 参考訳(メタデータ) (2024-01-13T04:21:24Z) - U-BEV: Height-aware Bird's-Eye-View Segmentation and Neural Map-based Relocalization [81.76044207714637]
GPS受信が不十分な場合やセンサベースのローカライゼーションが失敗する場合、インテリジェントな車両には再ローカライゼーションが不可欠である。
Bird's-Eye-View (BEV)セグメンテーションの最近の進歩は、局所的な景観の正確な推定を可能にする。
本稿では,U-NetにインスパイアされたアーキテクチャであるU-BEVについて述べる。
論文 参考訳(メタデータ) (2023-10-20T18:57:38Z) - FB-BEV: BEV Representation from Forward-Backward View Transformations [131.11787050205697]
本稿では,Bird-Eye-View (BEV) 表現のためのビュートランスフォーメーションモジュール (VTM) を提案する。
我々は提案したモジュールをFB-BEVでインスタンス化し、nuScenesテストセット上で62.4%のNDSの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-08-04T10:26:55Z) - X-Align++: cross-modal cross-view alignment for Bird's-eye-view
segmentation [44.58686493878629]
X-Alignは、BEVセグメンテーションのための新しいエンドツーエンドのクロスモーダルおよびクロスビュー学習フレームワークである。
X-Alignは、nuScenesとKITTI-360データセットの3つの絶対mIoUポイントにより、最先端を著しく上回る。
論文 参考訳(メタデータ) (2023-06-06T15:52:55Z) - X-Align: Cross-Modal Cross-View Alignment for Bird's-Eye-View
Segmentation [44.95630790801856]
X-Alignは、BEVセグメンテーションのための新しいエンドツーエンドのクロスモーダルおよびクロスビュー学習フレームワークである。
X-Align は nuScene 上で 3 つの絶対 mIoU 点によって最先端を著しく上回る。
論文 参考訳(メタデータ) (2022-10-13T06:42:46Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - GitNet: Geometric Prior-based Transformation for Birds-Eye-View
Segmentation [105.19949897812494]
Birds-eye-view (BEV) セマンティックセマンティックセグメンテーションは自動運転に不可欠である。
本稿では,GitNetという新しい2段階のGeometry Preside-based Transformationフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-16T06:46:45Z) - Bird's-Eye-View Panoptic Segmentation Using Monocular Frontal View
Images [4.449481309681663]
本研究では,Bird's-Eye-View (BEV) マップにおいて,高密度パノプティックセグメンテーションマップを直接予測するエンド・ツー・エンドの学習手法を提案する。
私たちのアーキテクチャはトップダウンパラダイムに従っており、新しい高密度トランスモジュールを組み込んでいます。
我々は、FV-BEV変換の感度を数学的に定式化し、BEV空間のピクセルをインテリジェントに重み付けすることができる。
論文 参考訳(メタデータ) (2021-08-06T17:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。