論文の概要: SBEVNet: End-to-End Deep Stereo Layout Estimation
- arxiv url: http://arxiv.org/abs/2105.11705v1
- Date: Tue, 25 May 2021 07:10:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-27 01:18:05.399508
- Title: SBEVNet: End-to-End Deep Stereo Layout Estimation
- Title(参考訳): SBEVNet:Deep-to-End Stereo Layoutの推定
- Authors: Divam Gupta, Wei Pu, Trenton Tabor, Jeff Schneider
- Abstract要約: 一対のステレオ画像から鳥の視線レイアウトを推定するためのSBEVNet(Stereo Bird's Eye ViewNetwork)を紹介した。
本研究では,良質な内野鳥の視線特徴表現の学習がレイアウト推定に有効であることを示す。
- 参考スコア(独自算出の注目度): 13.749997863293347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate layout estimation is crucial for planning and navigation in robotics
applications, such as self-driving. In this paper, we introduce the Stereo
Bird's Eye ViewNetwork (SBEVNet), a novel supervised end-to-end framework for
estimation of bird's eye view layout from a pair of stereo images. Although our
network reuses some of the building blocks from the state-of-the-art deep
learning networks for disparity estimation, we show that explicit depth
estimation is neither sufficient nor necessary. Instead, the learning of a good
internal bird's eye view feature representation is effective for layout
estimation. Specifically, we first generate a disparity feature volume using
the features of the stereo images and then project it to the bird's eye view
coordinates. This gives us coarse-grained information about the scene
structure. We also apply inverse perspective mapping (IPM) to map the input
images and their features to the bird's eye view. This gives us fine-grained
texture information. Concatenating IPM features with the projected feature
volume creates a rich bird's eye view representation which is useful for
spatial reasoning. We use this representation to estimate the BEV semantic map.
Additionally, we show that using the IPM features as a supervisory signal for
stereo features can give an improvement in performance. We demonstrate our
approach on two datasets:the KITTI dataset and a synthetically generated
dataset from the CARLA simulator. For both of these datasets, we establish
state-of-the-art performance compared to baseline techniques.
- Abstract(参考訳): 正確なレイアウト推定は、自動運転などのロボットアプリケーションにおける計画とナビゲーションに不可欠である。
本稿では,一対のステレオ画像から鳥の目視レイアウトを推定するための新しい教師付きエンドツーエンドフレームワークであるステレオバードズアイビューネットワーク(sbevnet)について紹介する。
我々のネットワークは,最先端のディープラーニングネットワークの構成要素のいくつかを再利用して異質な評価を行っているが,明示的な奥行き推定は十分でも必要でもないことを示す。
代わりに、良い内部バードのアイビュー特徴表現の学習はレイアウト推定に有効である。
具体的には,まずステレオ画像の特徴を用いて不均一な特徴量を生成し,鳥の視線座標に投影する。
これにより、シーン構造に関する粗い情報が得られる。
また、入力画像とその特徴を鳥の視線にマッピングするために、逆視点マッピング(IPM)を適用した。
これによりきめ細かいテクスチャ情報が得られる。
ipm機能を投影された機能ボリュームと結合することは、空間的推論に有用なリッチバードズアイビュー表現を生成する。
この表現を用いてBEVセマンティックマップを推定する。
さらに,IMM機能をステレオ特徴の監視信号として用いることで,性能の向上が期待できることを示す。
我々は、KITTIデータセットとCARLAシミュレータからの合成データセットの2つのデータセットに対するアプローチを実証した。
これら両方のデータセットに対して,ベースライン技術と比較して最先端のパフォーマンスを確立する。
関連論文リスト
- VQ-Map: Bird's-Eye-View Map Layout Estimation in Tokenized Discrete Space via Vector Quantization [108.68014173017583]
Bird's-eye-view (BEV) マップのレイアウト推定には、エゴ車の周囲の環境要素のセマンティクスを正確に完全に理解する必要がある。
本稿では,Vector Quantized-Variational AutoEncoder (VQ-VAE) に似た生成モデルを用いて,トークン化された離散空間における高レベルのBEVセマンティクスの事前知識を取得することを提案する。
得られたBEVトークンには,異なるBEV要素のセマンティクスを包含したコードブックが組み込まれているため,スパースバックボーン画像特徴と得られたBEVトークンとを直接一致させることができる。
論文 参考訳(メタデータ) (2024-11-03T16:09:47Z) - Map It Anywhere (MIA): Empowering Bird's Eye View Mapping using Large-scale Public Data [3.1968751101341173]
トップダウンのBird's Eye View (BEV)マップは、下流タスクの豊かさと柔軟性のために、地上ロボットナビゲーションの一般的な表現である。
最近の手法では、ファーストパーソンビュー(FPV)画像からBEVマップを予測できることが示されている。
2つの大規模クラウドソースマッピングプラットフォームを利用することで,よりスケーラブルなマップ予測手法が実現可能であることを示す。
論文 参考訳(メタデータ) (2024-07-11T17:57:22Z) - TK-Planes: Tiered K-Planes with High Dimensional Feature Vectors for Dynamic UAV-based Scenes [58.180556221044235]
本研究では,無人航空機(UAV)の認識における合成データと実世界データとの領域ギャップを埋める新しい手法を提案する。
私たちの定式化は、小さな動く物体や人間の行動からなる動的なシーンのために設計されています。
我々は,Okutama ActionやUG2など,挑戦的なデータセットの性能を評価する。
論文 参考訳(メタデータ) (2024-05-04T21:55:33Z) - Semi-Supervised Learning for Visual Bird's Eye View Semantic
Segmentation [16.3996408206659]
トレーニング中にラベルのない画像を活用することで性能を向上させるために,視覚的BEVセマンティックセマンティックセマンティックセマンティクスのための新しい半教師付きフレームワークを提案する。
次に、ラベルのないデータを完全に利用する一貫性損失を提案し、セマンティックな予測だけでなく、BEV機能にもモデルを制約する。
nuScenesとArgoverseデータセットの実験により、我々のフレームワークは予測精度を効果的に向上できることが示された。
論文 参考訳(メタデータ) (2023-08-28T12:23:36Z) - BEV-Locator: An End-to-end Visual Semantic Localization Network Using
Multi-View Images [13.258689143949912]
マルチビューカメラ画像を用いたエンドツーエンドの視覚的セマンティックローカライゼーションニューラルネットワークを提案する。
BEV-Locatorは、多目的シナリオ下での車両のポーズを推定することができる。
実験では, 平均絶対誤差が0.052m, 0.135m, 0.251$circ$, 横方向, 縦方向の翻訳, 方向角の程度で満足な精度を報告した。
論文 参考訳(メタデータ) (2022-11-27T20:24:56Z) - ViT-BEVSeg: A Hierarchical Transformer Network for Monocular
Birds-Eye-View Segmentation [2.70519393940262]
本研究では,バードアイビュー (BEV) マップを生成するために,視覚変換器 (ViT) をバックボーンアーキテクチャとして用いることを評価する。
我々のネットワークアーキテクチャであるViT-BEVSegは、入力画像のマルチスケール表現を生成するために標準視覚変換器を使用している。
我々は、最先端のアプローチと比較してかなり改善されたnuScenesデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-05-31T10:18:36Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view
Stereo [55.30992853477754]
本稿では,リアルタイムな単分子追跡と高密度フレームワークであるTANDEMを紹介する。
ポーズ推定のために、TANDEMはアライメントのスライディングウィンドウに基づいて光度バンドル調整を行う。
TANDEMは最先端のリアルタイム3D再構成性能を示す。
論文 参考訳(メタデータ) (2021-11-14T19:01:02Z) - PANet: Perspective-Aware Network with Dynamic Receptive Fields and
Self-Distilling Supervision for Crowd Counting [63.84828478688975]
本稿では,視点問題に対処するため,PANetと呼ばれる新しい視点認識手法を提案する。
対象物のサイズが視点効果によって1つの画像で大きく変化するという観測に基づいて,動的受容場(DRF)フレームワークを提案する。
このフレームワークは、入力画像に応じて拡張畳み込みパラメータによって受容野を調整することができ、モデルが各局所領域についてより識別的な特徴を抽出するのに役立つ。
論文 参考訳(メタデータ) (2021-10-31T04:43:05Z) - Structured Bird's-Eye-View Traffic Scene Understanding from Onboard
Images [128.881857704338]
本研究では,BEV座標における局所道路網を表す有向グラフを,単眼カメラ画像から抽出する問題について検討する。
提案手法は,BEV平面上の動的物体を検出するために拡張可能であることを示す。
我々は、強力なベースラインに対するアプローチを検証するとともに、ネットワークが優れたパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-10-05T12:40:33Z) - BEV-Seg: Bird's Eye View Semantic Segmentation Using Geometry and
Semantic Point Cloud [21.29622194272066]
我々は,BEVにおける画素単位のセマンティックセマンティックセマンティックセマンティクスを予測するタスクである,鳥の目の意味セマンティクスセマンティクスに着目した。
このタスクには、サイドビューからバードビューへのビュー変換と、未確認領域への学習の移行という2つの大きな課題がある。
新たな2段階認識パイプラインは,画素深度を明示的に予測し,効率よく画素セマンティクスと組み合わせる。
論文 参考訳(メタデータ) (2020-06-19T23:30:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。