論文の概要: Building Facade Parsing R-CNN
- arxiv url: http://arxiv.org/abs/2205.05912v1
- Date: Thu, 12 May 2022 07:08:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 21:52:05.198166
- Title: Building Facade Parsing R-CNN
- Title(参考訳): ファサード解析R-CNNの構築
- Authors: Sijie Wang, Qiyu Kang, Rui She, Wee Peng Tay, Diego Navarro Navarro,
Andreas Hartmannsgruber
- Abstract要約: 本稿では,Transconvモジュール,一般化されたバウンディングボックス検出,凸正規化を含むFacade R-CNNを提案する。
実験により、R-CNNは現在の最先端のファサード解析モデルよりも優れた性能を発揮することが示された。
また、Oxford RobotCarデータセットから派生した新しい建築ファサード解析データセットも公開する。
- 参考スコア(独自算出の注目度): 20.637799850945765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building facade parsing, which predicts pixel-level labels for building
facades, has applications in computer vision perception for autonomous vehicle
(AV) driving. However, instead of a frontal view, an on-board camera of an AV
captures a deformed view of the facade of the buildings on both sides of the
road the AV is travelling on, due to the camera perspective. We propose Facade
R-CNN, which includes a transconv module, generalized bounding box detection,
and convex regularization, to perform parsing of deformed facade views.
Experiments demonstrate that Facade R-CNN achieves better performance than the
current state-of-the-art facade parsing models, which are primarily developed
for frontal views. We also publish a new building facade parsing dataset
derived from the Oxford RobotCar dataset, which we call the Oxford RobotCar
Facade dataset. This dataset contains 500 street-view images from the Oxford
RobotCar dataset augmented with accurate annotations of building facade
objects. The published dataset is available at
https://github.com/sijieaaa/Ox ford-RobotCar-Facade
- Abstract(参考訳): ファサード構築のためのピクセルレベルのラベルを予測するファサード解析は、自律走行車(AV)のコンピュータビジョン認識に応用されている。
しかし、フロントビューの代わりに、AVのオンボードカメラは、カメラの視点により、AVが走行している道路の両側にある建物のファサードの変形したビューをキャプチャする。
本稿では,トランスconvモジュール,一般化された境界ボックス検出,凸正規化を含むファサードr-cnnを提案し,変形したファサードビューの解析を行う。
実験により、ファサードr-cnnは、主にフロントビュー向けに開発された現在のファサード解析モデルよりも優れた性能を達成できることが示されている。
また,oxford robotcarファサードデータセットと呼ばれるoxford robotcarデータセットから派生した,新たなビルディングファサード解析データセットを公開する。
このデータセットには、ファサードオブジェクト構築の正確なアノテーションを付加したOxford RobotCarデータセットの500のストリートビューイメージが含まれている。
公開されたデータセットはhttps://github.com/sijieaaa/Ox ford-RobotCar-Facadeで公開されている。
- 全文 参考訳へのリンク
関連論文リスト
- Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z) - FS6D: Few-Shot 6D Pose Estimation of Novel Objects [116.34922994123973]
6Dオブジェクトポーズ推定ネットワークは、多数のオブジェクトインスタンスにスケールする能力に制限がある。
本研究では,未知の物体の6次元ポーズを,余分な訓練を伴わずにいくつかの支援ビューで推定する。
論文 参考訳(メタデータ) (2022-03-28T10:31:29Z) - Drive&Segment: Unsupervised Semantic Segmentation of Urban Scenes via
Cross-modal Distillation [31.269202953228017]
本研究は,自動車が収集した生の非キュレートデータからのみ,手動のアノテーションを使わずに,都市景観における画素単位のセマンティックイメージのセマンティックセマンティックセマンティクスの学習について検討する。
本稿では,同期化LiDARと画像データを利用した意味的イメージセグメンテーションのクロスモーダルな教師なし学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-21T17:35:46Z) - From Multi-View to Hollow-3D: Hallucinated Hollow-3D R-CNN for 3D Object
Detection [101.20784125067559]
本稿では,3次元物体検出の問題に対処するため,Halucinated Hollow-3D R-CNNという新しいアーキテクチャを提案する。
本稿では,まず,視点ビューと鳥眼ビューに点雲を逐次投影することで,多視点特徴を抽出する。
3Dオブジェクトは、新しい階層型Voxel RoIプール操作でボックスリファインメントモジュールを介して検出される。
論文 参考訳(メタデータ) (2021-07-30T02:00:06Z) - Window Detection In Facade Imagery: A Deep Learning Approach Using Mask
R-CNN [0.0]
本稿では、ファサード画像入力のウィンドウ検出に使用するマスクR-CNNフレームワークについて検討する。
我々は、ファサードのストリートビュー画像の収集したデータセットを用いて、トランスファーラーニングを利用して、COCO重みに関する提案手法を訓練する。
論文 参考訳(メタデータ) (2021-07-21T11:00:01Z) - Deepfake Detection Scheme Based on Vision Transformer and Distillation [4.716110829725784]
偽ビデオ検出のための蒸留法を用いたVision Transformerモデルを提案する。
提案手法は,CNN機能の組み合わせにより,入力としてのパッチ埋め込みが最先端であることを確認した。
論文 参考訳(メタデータ) (2021-04-03T09:13:05Z) - Robust 2D/3D Vehicle Parsing in CVIS [54.825777404511605]
本研究では,協調型車両インフラシステム(CVIS)の一環として,異なるカメラビューの車両を堅牢に検出・認識する新しいアプローチを提案する。
提案方式は任意のカメラビュー向けに設計されており,本質的パラメータや外部的パラメータを仮定しない。
実際に,本手法は2次元検出,インスタンスセグメンテーション,6-DoFのポーズ推定においてSOTA法より優れている。
論文 参考訳(メタデータ) (2021-03-11T03:35:05Z) - LIGHTEN: Learning Interactions with Graph and Hierarchical TEmporal
Networks for HOI in videos [13.25502885135043]
ビデオから人間と物体の相互作用を分析すると、人間とビデオに存在する物体の関係が特定される。
映像中の複数の粒度の真理を効果的に捉え,視覚的特徴を学習するための階層的アプローチ LIGHTEN を提案する。
V-COCOにおける人間と物体の相互作用検出(88.9%と92.6%)とCAD-120の予測タスクおよび画像ベースHOI検出の競争結果の最先端化を実現した。
論文 参考訳(メタデータ) (2020-12-17T05:44:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。