論文の概要: Focus on BEV: Self-calibrated Cycle View Transformation for Monocular Birds-Eye-View Segmentation
- arxiv url: http://arxiv.org/abs/2410.15932v1
- Date: Mon, 21 Oct 2024 12:00:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:18:27.127986
- Title: Focus on BEV: Self-calibrated Cycle View Transformation for Monocular Birds-Eye-View Segmentation
- Title(参考訳): BEVに焦点を当てた単眼鳥の自己校正サイクルビュー変換-Eye-Viewセグメンテーション
- Authors: Jiawei Zhao, Qixing Jiang, Xuede Li, Junfeng Luo,
- Abstract要約: Birds--EyeView (BEV)セグメンテーションは、視点からトップビューへの空間マッピングを確立することを目的としている。
近年の研究では、画像空間におけるBEV非依存的特徴の破壊により、ビュートランスフォーメーションの困難に直面している。
- 参考スコア(独自算出の注目度): 4.9185678564997355
- License:
- Abstract: Birds-Eye-View (BEV) segmentation aims to establish a spatial mapping from the perspective view to the top view and estimate the semantic maps from monocular images. Recent studies have encountered difficulties in view transformation due to the disruption of BEV-agnostic features in image space. To tackle this issue, we propose a novel FocusBEV framework consisting of $(i)$ a self-calibrated cross view transformation module to suppress the BEV-agnostic image areas and focus on the BEV-relevant areas in the view transformation stage, $(ii)$ a plug-and-play ego-motion-based temporal fusion module to exploit the spatiotemporal structure consistency in BEV space with a memory bank, and $(iii)$ an occupancy-agnostic IoU loss to mitigate both semantic and positional uncertainties. Experimental evidence demonstrates that our approach achieves new state-of-the-art on two popular benchmarks,\ie, 29.2\% mIoU on nuScenes and 35.2\% mIoU on Argoverse.
- Abstract(参考訳): Birds-Eye-View (BEV) のセグメンテーションは、ビュービューからトップビューへの空間マッピングを確立し、モノクルイメージからセマンティックマップを推定することを目的としている。
近年の研究では、画像空間におけるBEV非依存的特徴の破壊により、ビュートランスフォーメーションの困難に直面している。
この問題に対処するために,$のFocusBEVフレームワークを提案する。
(i)ビュー変換段階におけるBEV非依存領域を抑制し、BEV関連領域にフォーカスする自己校正型クロスビュー変換モジュール$$$
(ii)メモリバンク付きBEV空間における時空間構造整合性を利用したプラグアンドプレイエゴモーション型時間融合モジュールと$
(iii)意味的・位置的不確実性を軽減するために、占有非依存なIoU損失を計る。
実験的な証拠は、我々のアプローチが2つの一般的なベンチマークで新しい最先端を達成することを証明している:\ie, 29.2\% mIoU on nuScenes, 35.2\% mIoU on Argoverse。
関連論文リスト
- VQ-Map: Bird's-Eye-View Map Layout Estimation in Tokenized Discrete Space via Vector Quantization [108.68014173017583]
Bird's-eye-view (BEV) マップのレイアウト推定には、エゴ車の周囲の環境要素のセマンティクスを正確に完全に理解する必要がある。
本稿では,Vector Quantized-Variational AutoEncoder (VQ-VAE) に似た生成モデルを用いて,トークン化された離散空間における高レベルのBEVセマンティクスの事前知識を取得することを提案する。
得られたBEVトークンには,異なるBEV要素のセマンティクスを包含したコードブックが組み込まれているため,スパースバックボーン画像特徴と得られたBEVトークンとを直接一致させることができる。
論文 参考訳(メタデータ) (2024-11-03T16:09:47Z) - DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [104.87876441265593]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。
非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。
DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文 参考訳(メタデータ) (2024-01-13T04:21:24Z) - Bird's-Eye-View Scene Graph for Vision-Language Navigation [85.72725920024578]
視覚言語ナビゲーション(VLN)は、人間の指示に従って3D環境をナビゲートするエージェントである。
室内環境のシーンレイアウトと幾何学的手がかりを符号化するために,多段階のBEV表現を利用するBEVシーングラフ(BSG)を提案する。
BSGに基づいて、エージェントは、ローカルなBEVグリッドレベル決定スコアとグローバルなグラフレベル決定スコアを予測し、パノラマビューのサブビュー選択スコアと組み合わせる。
論文 参考訳(メタデータ) (2023-08-09T07:48:20Z) - FB-BEV: BEV Representation from Forward-Backward View Transformations [131.11787050205697]
本稿では,Bird-Eye-View (BEV) 表現のためのビュートランスフォーメーションモジュール (VTM) を提案する。
我々は提案したモジュールをFB-BEVでインスタンス化し、nuScenesテストセット上で62.4%のNDSの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-08-04T10:26:55Z) - Leveraging BEV Representation for 360-degree Visual Place Recognition [14.497501941931759]
本稿では,360度視覚位置認識(VPR)におけるBird's Eye View表現の利点について検討する。
本稿では,特徴抽出,特徴集約,視覚-LiDAR融合におけるBEV表現を利用した新しいネットワークアーキテクチャを提案する。
提案手法は,2つのデータセットのアブレーションおよび比較研究において評価される。
論文 参考訳(メタデータ) (2023-05-23T08:29:42Z) - BEVFormer v2: Adapting Modern Image Backbones to Bird's-Eye-View
Recognition via Perspective Supervision [101.36648828734646]
本稿では、視線を監督する新しい鳥眼ビュー(BEV)検出器について述べる。
提案手法は,従来および現代の画像バックボーンの幅広いスペクトルを用いて検証し,大規模なnuScenesデータセット上で新たなSoTA結果を得る。
論文 参考訳(メタデータ) (2022-11-18T18:59:48Z) - GitNet: Geometric Prior-based Transformation for Birds-Eye-View
Segmentation [105.19949897812494]
Birds-eye-view (BEV) セマンティックセマンティックセグメンテーションは自動運転に不可欠である。
本稿では,GitNetという新しい2段階のGeometry Preside-based Transformationフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-16T06:46:45Z) - Bird's-Eye-View Panoptic Segmentation Using Monocular Frontal View
Images [4.449481309681663]
本研究では,Bird's-Eye-View (BEV) マップにおいて,高密度パノプティックセグメンテーションマップを直接予測するエンド・ツー・エンドの学習手法を提案する。
私たちのアーキテクチャはトップダウンパラダイムに従っており、新しい高密度トランスモジュールを組み込んでいます。
我々は、FV-BEV変換の感度を数学的に定式化し、BEV空間のピクセルをインテリジェントに重み付けすることができる。
論文 参考訳(メタデータ) (2021-08-06T17:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。