論文の概要: Building Facade Parsing R-CNN
- arxiv url: http://arxiv.org/abs/2205.05912v1
- Date: Thu, 12 May 2022 07:08:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 21:52:05.198166
- Title: Building Facade Parsing R-CNN
- Title(参考訳): ファサード解析R-CNNの構築
- Authors: Sijie Wang, Qiyu Kang, Rui She, Wee Peng Tay, Diego Navarro Navarro,
Andreas Hartmannsgruber
- Abstract要約: 本稿では,Transconvモジュール,一般化されたバウンディングボックス検出,凸正規化を含むFacade R-CNNを提案する。
実験により、R-CNNは現在の最先端のファサード解析モデルよりも優れた性能を発揮することが示された。
また、Oxford RobotCarデータセットから派生した新しい建築ファサード解析データセットも公開する。
- 参考スコア(独自算出の注目度): 20.637799850945765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building facade parsing, which predicts pixel-level labels for building
facades, has applications in computer vision perception for autonomous vehicle
(AV) driving. However, instead of a frontal view, an on-board camera of an AV
captures a deformed view of the facade of the buildings on both sides of the
road the AV is travelling on, due to the camera perspective. We propose Facade
R-CNN, which includes a transconv module, generalized bounding box detection,
and convex regularization, to perform parsing of deformed facade views.
Experiments demonstrate that Facade R-CNN achieves better performance than the
current state-of-the-art facade parsing models, which are primarily developed
for frontal views. We also publish a new building facade parsing dataset
derived from the Oxford RobotCar dataset, which we call the Oxford RobotCar
Facade dataset. This dataset contains 500 street-view images from the Oxford
RobotCar dataset augmented with accurate annotations of building facade
objects. The published dataset is available at
https://github.com/sijieaaa/Oxford-RobotCar-Facade
- Abstract(参考訳): ファサード構築のためのピクセルレベルのラベルを予測するファサード解析は、自律走行車(AV)のコンピュータビジョン認識に応用されている。
しかし、フロントビューの代わりに、AVのオンボードカメラは、カメラの視点により、AVが走行している道路の両側にある建物のファサードの変形したビューをキャプチャする。
本稿では,トランスconvモジュール,一般化された境界ボックス検出,凸正規化を含むファサードr-cnnを提案し,変形したファサードビューの解析を行う。
実験により、ファサードr-cnnは、主にフロントビュー向けに開発された現在のファサード解析モデルよりも優れた性能を達成できることが示されている。
また,oxford robotcarファサードデータセットと呼ばれるoxford robotcarデータセットから派生した,新たなビルディングファサード解析データセットを公開する。
このデータセットには、ファサードオブジェクト構築の正確なアノテーションを付加したOxford RobotCarデータセットの500のストリートビューイメージが含まれている。
公開されたデータセットはhttps://github.com/sijieaaa/Oxford-RobotCar-Facadeで公開されている。
関連論文リスト
- FacadeNet: Conditional Facade Synthesis via Selective Editing [2.0739760901716755]
多様な視点からファサードイメージを構築するためのディープラーニングアプローチであるFacadeNetを紹介する。
本手法では,条件付きGANを用いて,所望の視点情報とともにファサードの単一ビューを取得し,異なる視点からファサードの画像を生成する。
論文 参考訳(メタデータ) (2023-11-02T13:57:43Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - Estimation of Appearance and Occupancy Information in Birds Eye View
from Surround Monocular Images [2.69840007334476]
Birds-eye View (BEV)は、トップダウンビューから、エゴ車両フレーム内の異なる交通参加者の位置を表す。
360デグ視野(FOV)をカバーするモノクラーカメラのアレイから、様々な交通参加者の外観や占有情報をキャプチャする新しい表現を提案する。
我々は、すべてのカメラ画像の学習画像埋め込みを使用して、シーンの外観と占有度の両方をキャプチャする瞬間に、シーンのBEVを生成する。
論文 参考訳(メタデータ) (2022-11-08T20:57:56Z) - One-Shot Neural Fields for 3D Object Understanding [112.32255680399399]
ロボット工学のための統一的でコンパクトなシーン表現を提案する。
シーン内の各オブジェクトは、幾何学と外観をキャプチャする潜在コードによって描写される。
この表現は、新しいビューレンダリングや3D再構成、安定した把握予測といった様々なタスクのためにデコードできる。
論文 参考訳(メタデータ) (2022-10-21T17:33:14Z) - Window Detection In Facade Imagery: A Deep Learning Approach Using Mask
R-CNN [0.0]
本稿では、ファサード画像入力のウィンドウ検出に使用するマスクR-CNNフレームワークについて検討する。
我々は、ファサードのストリートビュー画像の収集したデータセットを用いて、トランスファーラーニングを利用して、COCO重みに関する提案手法を訓練する。
論文 参考訳(メタデータ) (2021-07-21T11:00:01Z) - Robust 2D/3D Vehicle Parsing in CVIS [54.825777404511605]
本研究では,協調型車両インフラシステム(CVIS)の一環として,異なるカメラビューの車両を堅牢に検出・認識する新しいアプローチを提案する。
提案方式は任意のカメラビュー向けに設計されており,本質的パラメータや外部的パラメータを仮定しない。
実際に,本手法は2次元検出,インスタンスセグメンテーション,6-DoFのポーズ推定においてSOTA法より優れている。
論文 参考訳(メタデータ) (2021-03-11T03:35:05Z) - Bounding Boxes Are All We Need: Street View Image Classification via
Context Encoding of Detected Buildings [7.1235778791928634]
「Detector-Encoder-Classifier」フレームワークが提案されている。
BEAUTY"データセットは、ストリートビューイメージの分類だけでなく、マルチクラスのビルディング検出にも利用できる。
論文 参考訳(メタデータ) (2020-10-03T08:49:51Z) - Footprints and Free Space from a Single Color Image [32.57664001590537]
入力として1つのRGB画像が与えられた場合、可視面と隠蔽面の両方の形状を予測するモデルを導入する。
ステレオビデオシーケンスから、カメラポーズ、フレームごとの深さ、セマンティックセグメンテーションを用いて学習し、トレーニングデータを形成する。
トレーニングシーンの空間的カバレッジには驚くほど低いバーが必要であることが分かりました。
論文 参考訳(メタデータ) (2020-04-14T09:29:17Z) - SimAug: Learning Robust Representations from Simulation for Trajectory
Prediction [78.91518036949918]
本研究では,シミュレーション学習データの拡張により,ロバスト表現を学習する新しい手法を提案する。
我々は,SimAugが実世界の3つのベンチマークで有望な結果を得ることを示す。
論文 参考訳(メタデータ) (2020-04-04T21:22:01Z) - Spatiotemporal Relationship Reasoning for Pedestrian Intent Prediction [57.56466850377598]
視覚データに対する推論は、ロボティクスとビジョンベースのアプリケーションにとって望ましい能力である。
本稿では,歩行者の意図を推論するため,現場の異なる物体間の関係を明らかにするためのグラフ上でのフレームワークを提案する。
歩行者の意図は、通りを横切る、あるいは横断しない将来の行動として定義され、自動運転車にとって非常に重要な情報である。
論文 参考訳(メタデータ) (2020-02-20T18:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。