Building facade parsing, which predicts pixel-level labels for building
facades, has applications in computer vision perception for autonomous vehicle
(AV) driving. However, instead of a frontal view, an on-board camera of an AV
captures a deformed view of the facade of the buildings on both sides of the
road the AV is travelling on, due to the camera perspective. We propose Facade
R-CNN, which includes a transconv module, generalized bounding box detection,
and convex regularization, to perform parsing of deformed facade views.
Experiments demonstrate that Facade R-CNN achieves better performance than the
current state-of-the-art facade parsing models, which are primarily developed
for frontal views. We also publish a new building facade parsing dataset
derived from the Oxford RobotCar dataset, which we call the Oxford RobotCar
Facade dataset. This dataset contains 500 street-view images from the Oxford
RobotCar dataset augmented with accurate annotations of building facade
objects. The published dataset is available at
https://github.com/s ijieaaa/Oxford-Robot Car-Facade
Diego Navarro Navarro2, and Andreas Hartmannsgruber2 †
Diego Navarro Navarro2とAndreas Hartmannsgruber2
0.39
2 2 0 2 y a M 2 1
2 2 0 2 y a m 2 1 である。
0.52
] V C . s c [
] 略称はC。 sc [
0.39
1 v 2 1 9 5 0
1 v 2 1 9 5 0
0.43
. 5 0 2 2 : v i X r a
. 5 0 2 2 : v i X r a
0.42
Abstract Building facade parsing, which predicts pixel-level labels for building facades, has applications in computer vision perception for autonomous vehicle (AV) driving.
However, instead of a frontal view, an on-board camera of an AV captures a deformed view of the facade of the buildings on both sides of the road the AV is travelling on, due to the camera perspective.
We propose Facade RCNN, which includes a transconv module, generalized bounding box detection, and convex regularization, to perform parsing of deformed facade views.
Experiments demonstrate that Facade RCNN achieves better performance than the current state-of-the-art facade parsing models, which are primarily developed for frontal views.
1 Introduction Building facade parsing or segmentation is a task that classifies the building facade image into elements from different semantic categories.
Building facade parsing finds applications in a wide array of fields, including urban augmented reality (AR) [Fond et al , 2017], camera pose estimation [Fond et al , 2021], 3D building reconstruction [Wu et al , 2014], and visual Simultaneous Localization And Mapping (SLAM) in street scenes [Schops et al , 2017].
ファサード解析は、都市拡張現実(ar) [fond et al , 2017]、カメラのポーズ推定 [fond et al , 2021]、3dビルの再構築 [wu et al , 2014]、街路シーンにおけるビジュアル同時ローカライゼーションとマッピング (slam) [schops et al , 2017]など、幅広い分野で応用されている。
0.73
The facade segmentation results from general semantic segmentation neu-
一般意味セグメンテーションneuのファサードセグメンテーション結果
0.54
∗First two authors contributed equally to this work.
2人の著者がこの作品に等しく貢献した。
0.57
†The authors 1 are with the Continental-NTU Corporate Lab, Nanyang Technological University, 50 Nanyang Avenue, 639798, Singapore.
Emails: rui.she@; wptay@}ntu.edu.sg The gapore Pte Ltd, Emails: dreas.hartmannsgrube r}@continental.com.
メール: rui.she@; wptay@}ntu.edu.sg The gapore Pte Ltd, Emails: dreas.hartmannsgrube r}@continental.com
0.42
are with Continental Automotive {diego.navarro.navarr o;
ディーゴ・ナバロ・ナバロという大陸自動車
0.36
{ wang1679@e.
例: wang1679@e。
0.55
;qiyu.kang@;
;qiyu.kang@;
0.49
authors 2 Sinan- ral networks [Badrinarayanan et al , 2017; Chen et al , 2018; Zhao et al , 2017], although promising, appear coarse.
作者 2 シナン ラルネットワーク[Badrinarayanan et al , 2017; Chen et al , 2018; Zhao et al , 2017]は、有望だが、粗いように見える。
0.51
Accurate facade parsing is a challenging task due to the complexity of facade images and the limitation of vanilla semantic segmentation networks that do not incorporate any domain knowledge.
Early learning approaches for building facade parsing like [Yang and Förstner, 2011] adopt the randomized decision forest and the conditional random field to perform region-wise classification.
ファサード解析を構築するための早期学習アプローチ [yang and förstner, 2011] は、ランダム化決定フォレストと条件付きランダムフィールドを採用し、地域別分類を行う。
0.76
The papers [Zhao et al , 2010; Mathias, 2012; Teboul et al , 2011] assume prior knowledge of the regular facade layout or shape grammars for man-made structures to generate neat segmentation maps.
論文[zhao et al , 2010; mathias, 2012; teboul et al , 2011]は、人造構造物の通常のファサード配置や形状文法の事前知識を仮定し、きちんとしたセグメンテーションマップを生成する。
0.83
However, the hand-crafted prior knowledge is highly constrained and these approaches are not robust enough, with a tendency to generate poor predictions in real applications.
The work [Schmitz and Mayer, 2016] treats the task as a general image segmentation problem using CNNs without any structural domain knowledge.
この作業(Schmitz and Mayer, 2016)は、CNNを用いて、構造的なドメイン知識のない一般的な画像分割問題としてタスクを扱います。 訳抜け防止モード: 作業[Schmitz and Mayer, 2016 ]は、タスクを一般的な画像分割問題として扱う 構造的なドメイン知識のないCNNを使用する。
0.74
Later works like DeepFacade [Liu et al , 2017] and PALKN [Ma et al , 2021] make use of the regular structure of facades to achieve better semantic results.
その後、DeepFacade (Liu et al , 2017) や PALKN (Ma et al , 2021) のように、ファサードの正規構造を利用して、よりセマンティックな結果を得る。 訳抜け防止モード: 後にDeepFacade[Liu et al, 2017]のように動作する。 PALKN [Ma et al, 2021 ] はファサードの正規構造を利用する より良いセマンティックな結果が得られます
0.81
And the work [Femiani et al , 2018] proposes three different network architectures to better dealing with frontal view facade images with varying complexity.
そして、[Femiani et al , 2018] は3つの異なるネットワークアーキテクチャを提案し、様々な複雑さを持つ正面のファサードイメージをよりよく扱う。
0.72
All the above CNN-based facade parsing models like [Liu et al , 2017; Ma et al , 2021] are trained on datasets with approximately frontal facade views.
上記のCNNベースのファサード解析モデル(Liu et al , 2017; Ma et al , 2021)はすべて、ほぼ正面ファサードビューのデータセットでトレーニングされている。
0.74
In an autonomous vehicle (AV), an on-board camera typically captures a deformed view of the buildings alongside the road the AV is travelling.
While pre-processing techniques [Fond et al , 2021] can be used to reconstruct an approximate frontal representation, this additional step can introduce errors and undesirable artifacts, which will subsequently degrade the deep learning model accuracy.
事前処理技術(fond et al , 2021]は、近似的なフロント表現の再構築に使用できるが、この追加ステップはエラーと望ましくないアーティファクトを導入し、ディープラーニングモデルの精度を低下させる。
0.70
Alternatively, one can train a current state-of-the-art model like DeepFacade or PALKN using labeled deformed images from an AV camera perspective.
However, to the best of our knowledge, there are no datasets containing images from such a camera perspective with accurate building facade annotations.
ages from the public Oxford Radar RobotCar Dataset [Maddern et al , 2017].
the public oxford radar robotcar dataset [maddern et al , 2017] (英語)
0.33
This new dataset consists of 500 streetview images, on which we have performed accurate annotations of objects like windows and balconies on building facades.
This observation has been similarly utilized in [Liu et al , 2017], where the authors focused on the symmetry properties of facades and proposed regularizers to force the centers of each vertical or horizontal line segment of objects to have small variance.
この観測は [Liu et al , 2017] でも同様に利用されており、著者らはファサードの対称性に焦点をあて、各垂直線または水平線のセグメントの中心に小さなばらつきを強いる正則化器を提案した。
0.81
They also proposed to use an object detection module named Faster R-CNN [Ren et al , 2015] to output bounding boxes (bboxes) for rectangular windows.
彼らはまた、r-cnn[ren et al , 2015]と呼ばれるオブジェクト検出モジュールを使用して、矩形ウィンドウのバウンディングボックス(bboxes)を出力することも提案した。
0.65
The main difference to our work is that we directly propose to use the transconv module to better learn the symmetric and sheared geometry features of objects.
We also observe that the objects shown in many facade images like Fig 2 are not perfect rectangles.
また、図2のような多くのファサード画像に示されている物体は完全長方形ではないことも観察する。
0.60
As a result they fit neither the vanilla rectangular bbox nor the symmetric loss constraint in [Liu et al , 2017].
その結果、それらは[Liu et al , 2017] のバニラ矩形箱にも対称損失制約にも適合しない。
0.78
We instead propose a less restrictive regularization using the concept of a convex hull, based on the observation that even in a deformed image from an AV camera perspective, objects like windows and doors still maintain convex shapes.
Moreover, instead of outputting a rectangular bbox from the object detection module, we propose to output a generalized bbox that regresses a general quadrilateral.
Our main contributions are summarized as follows: 1) We propose Facade R-CNN that consists of a transconv module, generalized bbox detection, and convex regularization to perform facade object recognition from nonfrontal building views.
2) We introduce a new facade parsing dataset called the Oxford RobotCar Facade dataset, which contains challenging street-view building facade images captured in an autonomous driving environment and has high-quality annotations.
3) We conduct extensive comparisons and ablation studies to demonstrate that Facade R-CNN achieves the stateof-the-art performance for the facade parsing task.
The semantic segmentation decoding branch outputs the pixel-level semantic class for the facade image, while the the object detection branch outputs object-level generalized bboxes, which we further discuss in Section 2.3.
The outputs from the two branches are fused using a score thresholding approach in Section 2.5.
2つの枝からの出力は、第2.5節のスコア閾値法を用いて融合される。
0.61
2.2 Transconv Module Unlike objects that have irregular shapes in general segmentation tasks, the objects like windows and balconies on a building facade are highly regular with convex shapes.
However, as alluded to above, in applications like AV driving, buildings may not be oriented parallel to the camera, e g , as in Fig 2, objects are presented as deformed rectangles in the images.
We first model the inclined facades as deformed grids shown in Fig 2, with lines corresponding to facade objects’ (e g , windows) edges in both the height and depth directions.
Using a multi-scaled CNN backbone [He et al , 2016] is robust to scale changes.
マルチスケールのCNNバックボーン[He et al , 2016]を使用することで、変更のスケールアップが堅牢になります。 訳抜け防止モード: マルチスケールCNNバックボーン [He et al, 2016] 変化を拡大するのに頑丈です
0.60
However, when dealing with the height direction deformations, both the line intersection angles and the scales of the grids are varied, and the multi-scaling strategy is insufficient for convolutional (conv) kernels to detect the deformed patterns.
Another latent property of facades along a road is the symmetric distribution.
道路に沿ったファサードのもう1つの潜在性質は対称分布である。
0.62
As shown in Fig 2, the left and right building facades are highly symmetric to each other.
図2に示すように、左右の建物のファサードは互いに非常に対称である。
0.76
According to [Krizhevsky et al , 2012], kernels in the first conv layer play more basic roles to detect geometric patterns like lines and corners.
[krizhevsky et al , 2012] によると、最初のconv層のカーネルは線や角のような幾何学的パターンを検出するためにより基本的な役割を果たす。
0.64
From [Cohen and Welling, 2016], the combination of rotated conv kernel groups ensures equivariance towards image rotations.
Cohen and Welling, 2016] から、回転したconvカーネル群の組み合わせは、画像の回転に対して同値である。
0.64
We explore solutions to obtain stronger semantics by applying more general affine transformations, including flipping, rotation, and shearing, on the conv kernels to detect more deformed patterns.
This module contains a bag of sheared and flipped conv kernels.
このモジュールは、せん断およびフリップされたconvカーネルの袋を含んでいる。
0.62
Given the vanilla conv kernel, G0 ∈ RWG×WG×CG, we obtain the same sized transformed conv kernel Gshe,φ,m ∈ RWG×WG×CG, where φ ∈ [0◦, 180◦) are the sheared angles along the second coordinate axis, and m ∈ {0, 1} represent the flipping operation, as follows.
(1) where G0(u, v) ∈ RCG is the (u, v)-th point in the kernel G0 and G(cid:48) she,φ,m(ushe,φ,m, vshe,φ,m) the corresponding sheared point, is the (ushe,φ,m, vshe,φ,m)-th point in the kernel G(cid:48) she,φ,m.
We obtain (ushe,φ,m, vshe,φ,m) by transforming1 the coordinates (u, v) via:
座標 (u, v) を変換することで (ushe,φ,m, vshe,φ,m) を得る。
0.69
(cid:20) (−1)m 0
(cid:20) (−1)m 0
0.44
(cid:21)(cid:20) u
(cid:21)(cid:20)u
0.38
(cid:21) (cid:21)
(出典:21) (出典:21)
0.68
(cid:20) ushe,φ,m
(cid:20)ushe,φ,m
0.47
vshe,φ,m tan(φ) 1
vshe,φ,m tan (複数形 tans)
0.50
v . (2) = The set of all transformations forms a group with the group binary operation being the composition of transformations, which we call the shearing group.
v . (2) = すべての変換の集合は群二元演算が変換の合成である群を形成し、これをせん断群と呼ぶ。 訳抜け防止モード: v . (2) = すべての変換の集合は群を形成し、群二元演算は変換の合成である。 これをシアリンググループと呼んでいます
0.50
The transformation of conv kernels in our paper is the same as the implementation in [Cohen and Welling, 2016, eq. 18].
論文におけるconvカーネルの変換は[Cohen and Welling, 2016, eq. 18]の実装と同じである。
0.66
In [Cohen and Welling, 2016], the authors proposed to use symmetry groups (subgroups of the isometry group) including p4 and p4m.
著者らは[Cohen and Welling, 2016]において、p4 と p4m を含む対称性群(等尺群の部分群)を使うことを提案した。 訳抜け防止モード: 著者が提案した[Cohen and Welling, 2016 ] p4 と p4 m を含む対称群(等尺群の部分群)を使用する。
0.77
By contrast, we propose to use the non-isometry shearing group to better deal with image deformations.
対照的に, 画像変形をよりよく扱うために, 非等尺せん断群を用いることを提案する。
0.68
However the above ushe,φ,m and vshe,φ,m are not guaranteed to be integers.
しかし上記の ushe,φ,m と vhe,φ,m は整数であることが保証されていない。
0.79
We therefore perform an additional bilinear interpolation:
したがって、追加の双線形補間を行う。
0.63
Gshe,φ,m = itp(G(cid:48)
Gshe,φ,m = itp(G(cid:48)
0.49
she,φ,m), where itp(·) is the bilinear interpolation function [Jaderberg et al , 2015].
彼女,φ,m) ここで itp(·) は双線型補間関数 [Jaderberg et al , 2015] である。
0.75
In [Cohen and Welling, 2016], each group conv layer outputs a set of group feature maps.
Cohen and Welling, 2016] では、各グループ conv 層がグループ特徴写像のセットを出力します。
0.67
By contrast, to maintain the succeeding backbone architecture consistency, we perform a summation for the output group features.
Given the input I ∈ RH×W×D, the aggregated feature I(cid:48) ∈ RH(cid:48)×W (cid:48)×D(cid:48) is obtained via:
入力 I ∈ RH×W×D が与えられたとき、集約された特徴 I(cid:48) ∈ RH(cid:48)×W(cid:48)×D(cid:48) は以下の通りである。
0.72
(3) where ∗ denotes the convolution operation.
(3) ここで ∗ は畳み込み演算を表す。
0.63
By incorporating features under transformed conv kernels, the transconv module can detect more deformed patterns and thus is more robust when dealing with facade images from on-board camera views.
In a typical object detection network [Ren et al , 2015], the output is a rectangular bbox.
典型的な物体検出ネットワーク[Ren et al , 2015]では、出力は長方形のbboxである。
0.86
In DeepFacade [Liu et al , 2017], the vanilla rectangular bbox is used to refine the rectangular objects like windows on the building facade.
DeepFacade [Liu et al , 2017]では、バニラ長方形のボックスを使って、建物ファサードの窓のような長方形のオブジェクトを洗練します。
0.69
However, the rectangular bbox is only applicable to rectified facade images taken from the frontal perceptive which is rare in actual situations like images taken from on-vehicle front cameras.
As illustrated in Section 2.2, when the camera view is changed, the objects on the facade no longer have a rectangular shape, while a rectangular bbox would still regard the deformed quadrilateral as the rectangle and hence result in wrong predictions for some pixels.
To construct a more robust object detection head to refine the output from the semantic segmentation branch in Fig 1, we propose the generalized bbox detector, which can better fit the deformed facade objects.
As shown in Fig 3, we first define the top-left, top-right, bottom-left and bottom-right corners of the window to be pTL, pTR, pBL, and pBR, respectively.
Then, for a general quadrilateral object, we use two bboxes to represent it: the bboxTL−BR formed by pTL and pBR, and the bboxTR−BL formed by pTR and pBL.
To demonstrate the design efficiency for our generalized bbox detection head, we show head computation statistics in Table 12.Compared with the Mask RCNN head, our pure bbox regression head consumes 1/30 less MAdd and Flops and 1/150 less memory usage, and has similar efficiency as Faster R-CNN.
where Nbbox is the number of output rectangular bboxes, tcls,k is a probability vector for classification of the k-th generalized bbox, t∗ cls,k is the classification target, txywh,k,i is a vector that contains center coordinates, width, and height outputs of the i-th (i ∈ {1, 2}) rectangular bbox for the k-th generalized bbox, t∗ xywh,k,i is the regression target, (cid:96)ce is the cross-entropy loss, and (cid:96)smoothL1 is the smooth L1 function [Girshick, 2015].
Nbbox が出力長方形 bbox の数、tcls,k が k-次一般化 bbox の分類の確率ベクトル、t∗ cls,k が分類対象、txywh,k,i が k-次一般化 bbox の中心座標、幅、高さ出力を含むベクトル、t∗ xywh,k,i が回帰対象、(cid:96)ce がクロスエントロピー損失、(cid:96)smoothL1 が滑らかな L1 関数 [Girshick, 2015] である。 訳抜け防止モード: Nbbox は出力長方形の bbox や tcl の数です。 k は k - th 一般化 bbox の分類の確率ベクトルである。 t∗ cls, k は分類対象 txywh, k である i は i - th の中央座標、幅、高さの出力を含むベクトルである。 i ∈ { 1, 2 } ) k - th の一般 bbox, t∗ xywh の矩形 bbox 。 k, iは回帰目標、(cid:96)ceはクロス-エントロピー損失である。 cid:96)smoothL1は滑らかなL1関数である[Girshick, 2015 ]。
0.84
2.4 Convex Regularization In this section, we introduce a convex regularization due to the observation that in the context of building facade parsing, many objects like windows, shops and doors are all shown as deformed rectangles in images taken from different view perspectives.
However as we observe in Fig 5, the segmentation predictions from semantic segmentation networks like FCN [Long et al , 2015] are in non-convex irregular shapes for the two shops.
しかし、図5に示すように、FCN(Long et al , 2015)のようなセグメンテーションネットワークからのセグメンテーション予測は、両店舗の非凸な形状である。
0.70
We therefore propose a convex regularization to improve the robustness of the network and allow the network to maximally extract information from a convex region.
Specifically, given the set of pixels, denoted as Si, in which each pixel is predicted as the i-th class, and the ground truth segmentation labels, our convex target mask S∗ cvx,i is obtained by:
where N∗ cls,i is the number of ground truth instance mask of the i-th class; S∗ i,k is the k-th ground truth instance mask of the i-th class and Γ(·) is the convex hull of its set argument.
N∗ cls,i は i-階クラスの基底真理のインスタンスマスクの数であり、S∗ i,k は i-階クラスの k-階基底真理のインスタンスマスクであり、s(·) はその集合引数の凸包である。 訳抜け防止モード: n∗ cls, i は i - th クラスの基底真理インスタンスマスクの数である。 s∗ i, k は i - th クラスの k - th ground truth instance mask である。 そして γ ( · ) はその集合論の凸包である。
0.79
The instance masks can be generated using connected components labeling.
インスタンスマスクは接続されたコンポーネントラベリングを使って生成できる。
0.56
We then compute the convex regularizer as:
次に凸正規化子を次のように計算します。
0.45
Lcvx = 1 |Ccls|
Lcvx = 1 |Ccls|
0.57
(cid:96)ce(S∗
(cid:96)ce(S∗)
0.40
cvx,i),
cvx,i)であった。
0.59
(6) where Ccls is set of classes that have convex mask shapes, e g , windows, shops and doors, and (cid:96)ce(S) is the pixel-wise cross-entropy loss between predictions and labels restricted to the pixel set S. 2.5 Multi-task Learning Our proposed Facade R-CNN consists of two branches:3 segmentation branch and detection branch.
We adopt the DeepLabV3 [Chen et al , 2017] as the base network for semantic parsing, while the detection head illustrated in Section 2.3 is used for generalized bbox refinement.
我々は,DeepLabV3[Chen et al , 2017] を意味解析の基盤ネットワークとして採用し,第2.3節で示される検出ヘッドを一般化されたbbox精錬に用いる。
0.77
L = Lsemantic + Lproposal + Ldetection + αLcvx,
L = Lsemantic + Lproposal + Ldetection + αLcvx である。
0.90
In the training stage, the overall loss function is defined as: (7) where Lsemantic is the cross-entropy semantic segmentation loss, Lproposal is the RPN loss function defined in [Ren et al , 2015], and α is a pre-defined weight of the convex regularization.
トレーニング段階では、全体の損失関数は次のように定義される: (7) Lsemantic はクロスエントロピーセマンティックセマンティックセグメンテーション損失、Lproposal は[Ren et al , 2015] で定義されるRPN損失関数、α は凸正規化の事前定義された重み。
0.82
A mask fusion strategy is critical for generating the refined facade parsing output.
洗練されたファサード解析出力を生成するにはマスク融合戦略が不可欠である。
0.69
One way is to directly perform union over the mask outputs from the semantic and detection branches.
1つの方法は、セマンティクスと検出ブランチからのマスク出力に対して直接結合を実行することである。
0.62
This however inevitably introduces unpredictable errors, as some generalized bboxes are inaccurate.
しかし、これは必然的に予測不可能な誤りを引き起こす。
0.46
Thus we propose to apply a score threshold for the detected bboxes.
そこで本研究では,検出したボックスにスコアしきい値を適用する。
0.61
As illustrated in Section 2.3, each output generalized bbox is associated with a classification score sk = max(tcls,k) ∈ [0, 1].
第2.3節で示されるように、各出力一般化されたbboxは、分類スコア sk = max(tcls,k) ∈ [0, 1] に関連付けられる。
0.70
In the testing stage, after obtaining the generalized bbox and the semantic segmentation prediction, for the pixels in the overlapping region of these two outputs, the final fused semantic output for pixel j is generated as follows:
(8) where T is a pre-defined generalized bbox score threshold, Dj is the segmentation class predicted by the generalized bboxes at pixel j, and Sj is the segmentation class generated from the semantic branch at pixel j.
The whole dataset is based on the large autonomous driving dataset Oxford Radar RobotCar dataset [Maddern et al., 2017], which is collected along a consistent route through Oxford, UK.
データセット全体は、英国のオックスフォードを通る一貫したルートに沿って収集される、大規模な自動運転データセットOxford Radar RobotCarデータセット [Maddern et al., 2017]に基づいている。
0.78
As a comparison, many other existing facade datasets such as the RueMonge2014 [Riemenschneider et al , 2014] and ECP [Teboul, 2009] either have inaccurate annotations or less than 250 annotated images.
比較として、ruemonge2014 [riemenschneider et al , 2014] や ecp [teboul, 2009] のような既存のファサードデータセットは、不正確なアノテーションを持つか、250以下の注釈付き画像を持っている。
0.65
We list the features of Oxford RobotCar Facade dataset as follows.
以下に、Oxford RobotCar Facadeデータセットの特徴を列挙する。
0.77
Accurate annotations.
正確なアノテーション。
0.69
To ensure the quality of annotations, we manually label all classes based on the Labelme tool4, instead of using inaccurate pre-defined grammars to intuitively accelerate the labeling process.
Also, we carefully deal with the problem of occlusion, i.e., we specifically give different labels to distinguish the foreground objects (e g , vehicle and pedestrians) from background facades.
Diversity. The 500 images we selected consists of various buildings, such as churches, apartments, and office buildings, which largely increase the sample diversity.
To build a comprehensive benchmark for building facade parsing, we provide not only semantic annotations, but also instance and panoptic annotations [Kirillov et al , 2019].
ファサード解析を構築するための包括的なベンチマークを構築するために、セマンティックアノテーションだけでなく、インスタンスやパノプティクスアノテーション(Kirillov et al , 2019)も提供します。
0.67
Specifically, we use the object-level class window for instance segmentation task, while the other 4 stufflevel classes facade, door, balcony, shop together with window are used in the panoptic segmentation task.
4 Experiments We evaluate our proposed approach and several baselines on three datasets, the ECP dataset [Teboul, 2009], the RueMonge2014 dataset [Riemenschneider et al , 2014], and our Oxford RobotCar Facade dataset.
4 実験では,提案手法とecpデータセット [teboul, 2009],ruemonge2014データセット [riemenschneider et al , 2014],oxford robotcar facadeデータセットの3つのデータセットのベースラインを評価した。
0.76
We select four general segmentation CNNs and two state-of-the-art building facade parsing networks as baseline models, including FCN [Long et al , 2015], PSPNet [Zhao et al , 2017], DeepLabV3 [Chen et al , 2017], DeepLabV3+ [Chen et al , 2018], DeepFacade [Liu et al , 2017], and Pyramid ALKNet [Ma et al , 2021] 4.1 Dataset and Training Configuration In all the experiments except those in Section 5, we use the loss function defined in (7) with α = 1/9 and the fusion strategy in (8) with T = 0.5.
FCN [Long et al , 2015], PSPNet [Zhao et al , 2017], DeepLabV3 [Chen et al , 2017], DeepLabV3+ [Chen et al , 2018], DeepFacade [Liu et al , 2017], Pyramid ALKNet [Ma et al , 2021] 4.1 Dataset and Training Configuration 第5節を除くすべての実験では、(7) で α = 1/9 で定義された損失関数を使用し、(8) T = 0.5 での融合戦略を使用する。 訳抜け防止モード: 我々は4つの一般的なセグメンテーションCNNと2つの状態 - アートビルディングファサード解析ネットワークをベースラインモデルとして選択する。 FCN [Long et al, 2015 ], PSPNet [Zhao et al, 2017 ]を含む。 DeepLabV3 [ Chen et al, 2017 ], DeepLabV3 + [ Chen et al, 2018 ] DeepFacade [Liu et al, 2017 ] and Pyramid ALKNet [Ma et al, 2021 ] 4.1 Dataset 及び訓練構成 第5節を除くすべての実験 損失関数を α = 1/9 で (7 ) で定義します そして (8) における融合戦略は T = 0.5 である。
0.91
We refer the reader to the the supplementary material for more details of the datasets with specific settings and the training configurations.
我々は、特定の設定とトレーニング設定を備えたデータセットの詳細について、読者を補足資料を参照する。
0.66
4.2 Main Results The comparisons between our model and baselines on all datasets are shown in Table 2.
4.2 主な結果 我々のモデルとすべてのデータセットのベースラインの比較を表2に示す。
0.88
On the ECP dataset, though we obtain slightly lower mIoU compared with PALKN, we still surpass all the counterparts in accuracy.
On the RueMonge2014 dataset, we clearly observe that Facade R-CNN outperforms all the other models and obtain the highest scores, 74.34 in mIoU and 88.67 in accuracy.
The comparison demonstrates that our model is better at dealing with challenging situations and has stronger robustness to the distortion caused by camera view change.
From Table 3, we observe that combining shearing and flipping together is the optimal strategy, which contributes +0.65 mIoU improvement to the baseline.
However, when the transconv module is added into the succeeding deeper layers, it is not useful anymore, which is consistent with the illustration in Section 2.2 that the first few conv layers are more able in detecting basic geometry patterns.
5.2 Generalized Bounding Box Detection In Table 5, we first test different threshold T setting from 0 to 0.9 for mask fusion, where neither too high nor too low value can obtain significant gain.
By contrast, the optimal threshold 0.5 shows the optimal performance that increases mIoU by +0.39.
一方、最適閾値0.5は、mIoU+0.39の最適な性能を示す。
0.75
5.3 Convex regularization The convex regularizer serves as an extra loss for efficient network convergence.
5.3 凸正則化 凸正則化は効率的なネットワーク収束のための余分な損失となる。
0.65
We explore different weight settings for the convex regularizer as shown in Table 4.
表4に示すように、凸正則化器の異なる重み設定について検討する。
0.62
From Table 4, we observe the optimal weight value of 1/9 achieves the best result, which outperforms the baseline by +0.83 mIoU and +0.15 accuracy.
表4から1/9の最適重量値が最高値に達し、+0.83miouと+0.15の精度で基準値を上回る。
0.67
We also evaluate the performance when adding extra weight for convex classes, i.e., if we fix S∗ cvx,i = S∗ i,k instead of using (5), we do not get significant improvement.
We visualize the network convergence with convex regularization in Fig 7, which shows both accuracy and mIoU can converge faster than the baseline counterpart.
Table 4: Convex regularization performance under different weight settings on the RueMonge2014 dataset.
表4: RueMonge2014データセットの異なるウェイト設定下での凸正規化パフォーマンス。
0.74
Fig. 7: The network optimal performance with convex regularization.
第7図:凸正規化によるネットワーク最適性能
0.72
(a) mIoU vs. epoch;
(a)みおうvs.エポック
0.47
(b) accuracy vs. epoch.
(b)正確さ対エポック。
0.64
section, we use the combination of both the ECP and RueMonge2014 as the training dataset, while the Oxford RobotCar Facade is set as the testing dataset.
As shown in Table 6, our Facade R-CNN outperforms all counterparts even further by at least +1.14 in mIoU and +2.06 in accuracy, which demonstrates that our model is more able to generalize parsing ability to more challenging datasets.
Extensive experiments are conducted to compare the our model with other baselines.
本モデルと他のベースラインとの比較実験を行った。
0.70
We demonstrate that the proposed Facade R-CNN achieve the state-of-the-art performance.
提案したFacade R-CNNが最先端の性能を実現することを示す。
0.51
To advance the application of building facade parsing in autonomous driving, we publish a new dataset Oxford RobotCar Facade, which has realistic street-view images and high-quality annotations.
A Related Work In this section we brief more works that deal with the building facade parsing task from both the traditional and deep learning communities.
Traditional approaches tackle the problem of building facade parsing by focusing on hand-crafted prior knowledge.
伝統的なアプローチは、手作りの事前知識に着目してファサード解析を構築する問題に取り組む。
0.59
In [Zhao et al , 2010], buildings are parsed as individual facades.
Zhao et al , 2010 では、建物は個別のファサードとして解析される。
0.60
Each facade is formatted as the combination of roof and floor, and a dynamic optimization is then applied.
各ファサードは屋根と床の組み合わせとしてフォーマットされ、動的最適化が適用される。
0.76
The work [Mathias, 2012] first splits the whole street-view buildings into facades.
この作品[mathias, 2012]はまず、ストリートビューの建物全体をファサードに分割する。
0.67
Hand-crafted features are then extracted based on these facades, which are finally used for building style recognition.
手作りの特徴は、これらのファサードに基づいて抽出され、最終的に建築スタイル認識に使用される。
0.59
The reference [Teboul et al , 2011] formulates the problem as a hierarchical Markov decision process, where a binary split grammar is applied to parse and obtain the model optimal facade layout.
参照 [teboul et al , 2011] は問題を階層的マルコフ決定プロセスとして定式化し、二元分割文法を適用してモデル最適ファサードレイアウトを解析し取得する。
0.83
Deep Learning Segmentation.
ディープラーニングのセグメンテーション。
0.49
CNNs have shown the powerful ability on vision-based tasks, including the classification, the object detection, and the semantic segmentation.
Various CNN-based models are proposed to tackle computer vision problems.
コンピュータビジョン問題に取り組むために様々なcnnベースのモデルが提案されている。
0.55
Fully Convolutional Network (FCN)[Long et al , 2015] is a milestone in image segmentation, which regards the semantic segmentation as a pixelIn [Ronneberger et al , 2015], Uwise classification task.
Fully Convolutional Network (FCN)[Long et al , 2015]は画像セグメンテーションにおけるマイルストーンであり、セグメンテーションをピクセルIn [Ronneberger et al , 2015], Uwiseの分類タスクとみなしている。
0.79
Net is proposed mainly for medical image segmentation to capture more detailed representation.
医用画像のセグメンテーションにより、より詳細な表現を捉えることが主な目的である。
0.61
Unlike FCN that excludes information of the first several layers, U-Net integrates features from all convolutional (conv) layers by skip connections.
The PSPNet [Zhao et al , 2017] introduces the pyramid pooling module which extracts features from multi-scales with multiple pooling operations, and the final prediction is generated based on the concatenated features.
PSPNet[Zhao et al , 2017]では,複数のプール操作でマルチスケールから特徴を抽出するピラミッドプーリングモジュールを導入し,その結合した特徴に基づいて最終的な予測を生成する。
0.81
This module aggregates context information from a wider field, which demonstrates to be helpful to deal with scene parsing task.
The DeepLab series [Chen et al , 2017; Chen et al , 2018] enlarge the receptive field of conv layers by leveraging the dilated conv [Yu and Koltun, 2016].
DeepLabシリーズ[Chen et al , 2017; Chen et al , 2018]では,拡張されたconv(Yu and Koltun, 2016)を活用することで,conv層の受容領域を拡大している。
0.73
The dilated conv does not limit the kernel to have successive pixels anymore.
拡張されたconvは、カーネルが連続したピクセルを持つように制限しない。
0.55
By introducing the dilated rate, dilated conv enables pixels in the kernel to be far away from each another, without largely increasing the model parameters.
In addition, it utilizes a symmetry loss function that leverages the symmetric information of facade objects like windows.
さらに、窓のようなファサードオブジェクトの対称情報を利用する対称性損失関数を利用する。
0.76
The work PALKN [Ma et al , 2021] follows the success of dilated conv.
PALKN [Ma et al , 2021] は, 拡張コンブの成功に続く作品である。
0.76
It tackles the problem of occlusion and ambiguous of facades by introducing the atrous large kernel module (ALK module).
これは、atrous large kernel module (alkモジュール)を導入することで、ファサードの閉塞と曖昧さの問題に対処している。
0.62
With the proposed ALK module, their network is able to recognize patterns in a wider field and make use of the regular structures of facades to aggregate useful non-local context information.
An example is shown in Fig 8, where two sheared kernels Gshe,30◦,0 and Gshe,45◦,0 with shearing angles 30◦ and 45◦ along the y-axis are obtained from the vanilla kernel G0.
Fig. 8: Illustration for transforming the vanilla conv kernel to obtain the sheared conv kernel.
図8: バニラconvカーネルを変換してせん断convカーネルを得るための図示。
0.66
C Oxford RobotCar Facade Dataset To support the building facade parsing community, many facade datasets have been proposed during the last several years.
C Oxford RobotCar Facade Dataset 建築ファサード解析コミュニティをサポートするために、過去数年間に多くのファサードデータセットが提案されている。
0.74
The RueMonge2014 [Riemenschneider et al , 2014] is a facade dataset collected along the Rue Monge street in Paris, which contains both 3D and 2D semantic annotations.
ruemonge 2014 [riemenschneider et al , 2014]は、パリのrue monge通り沿いに収集されたファサードデータセットで、3dと2dの両方の意味アノテーションを含んでいる。 訳抜け防止モード: RueMonge2014 (Riemenschneider et al, 2014)は、パリのルージュ通りに沿って収集されたファサードデータセットである。 3Dおよび2Dセマンティックアノテーションを含む。
0.76
As the 2D semantic labels are generated based on the 3D building models, there exists some mismatching between labels and images as shown in Fig 6 in the paper.
LabelmeFacade [Fröhlich et al , 2010] is a large facade dataset that collects 945 facade images in different views.
LabelmeFacade [Fröhlich et al , 2010]は、異なるビューで945のファサード画像を収集する大規模なファサードデータセットである。
0.76
It has rich annotations for road-side objects, such as trees and vehicles.
木や車両などの道路側のオブジェクトに対する豊富なアノテーションがある。
0.75
Nevertheless, it does not provide facade object annotations in a unified level, i.e., they only annotate part of the windows and doors on the facade while leaving the rest unlabeled as shown in Fig 6 in the paper.
This would cause misleading during training stage and finally affect the performance of parsing models.
これはトレーニング段階で誤解を招き、最終的に解析モデルのパフォーマンスに影響する。
0.70
The more detailed visualization of our dataset is shown in Fig 9.
データセットのより詳細な可視化は、図9に示します。
0.89
Fig. 9: The Oxford RobotCar Facade dataset.
図9:Oxford RobotCar Facadeのデータセット。
0.75
D Dataset and Training Configuration D.1
Dデータセットとトレーニング構成D.1
0.77
Dataset Configuration We introduce the datasets used in our experiments with the specific settings as follows.
データセットの設定 実験で使用するデータセットを、以下の特定の設定で紹介します。
0.76
Table 8: Comparison of three R-CNNs under the threshold of 0.5 on the RueMonge2014 and the Oxford datasets, where all three models use the same fusion strategy described in Section 2.5.
ECP. The ECP dataset contains a total of 104 rectified images.
ecpだ ecpデータセットは、合計104の補正画像を含む。
0.71
We use the improved annotations provided by Mathias et al [Mathias et al , 2016], where there are 8 classes: window, door, balcony, shop, facade, sky, roof, chimney.
Mathias et al [Mathias et al , 2016]では,窓,ドア,バルコニー,ショップ,ファサード,空,屋根,煙突の8つのクラスが提供されている。
0.63
We preform five-fold cross validation on this dataset same as the paper [Ma et al , 2021] .
このデータセット上で[ma et al , 2021]と同じ5倍のクロス検証をプリフォームする。
0.70
RueMonge2014. The RueMonge2014 dataset contains a total of 219 deformed images with segmentation annotations.
We use Adam [Kingma and Ba, 2015] as the optimizer with learning rate 2e-4 and weight decay 1e-4.
学習率2e-4と体重減少1e-4の最適化にadam [kingma and ba, 2015]を用いる。
0.71
The data augmentation strategies we use include random color jittering, random horizontal flipping, and random scaling.
データ拡張戦略には、ランダムカラージッタリング、ランダム水平反転、ランダムスケーリングなどがある。
0.69
We use the overall loss function defined in (7) with α = 1/9 and T = 0.5.
α = 1/9 と T = 0.5 の合計損失関数を (7) で定義する。
0.85
We use the batch size of 4 and maximum input size of 1088×1088 during training.
バッチサイズは4で,最大入力サイズは1088×1088である。
0.57
For the backbone, we select the ResNet-50 [He et al , 2016] that is already pretrained on the ImageNet dataset[Deng et al., 2009], which is the same as the setting applied in [Ma et al , 2021] and [Liu et al , 2017].
バックボーンについては、[Ma et al , 2021] と [Liu et al , 2017] に適用される設定と同じ ImageNet データセット [Deng et al., 2009] で事前トレーニング済みの ResNet-50 [He et al , 2016] を選択します。
0.77
Same as the setting in DeepLabV3[Chen et al , 2017], we remove the strides of the last two stages (stage 4 and stage 5).
DeepLabV3[Chen et al , 2017]の設定と同じように、最後の2つのステージ(ステージ4とステージ5)の進行を削除します。
0.82
Thus, the output stride of the last feature map is 8, and this feature map is subsequently used for semantic segmentation using the vanilla DeepLabV3 segmentation classifier.
As for the bbox detection, following Faster R-CNN[Ren et al , 2015], the feature maps from stage 2 and stage 5 followed by the Feature Pyramid Network[Lin et al , 2017] are extracted for the generalized bbox detection.
ボックス検出については, より高速なR-CNN[Ren et al , 2015]に従って, ステージ2およびステージ5の特徴マップと特徴ピラミッドネットワーク[Lin et al , 2017]を抽出し, 一般化されたボックス検出を行う。
0.83
We implement the whole network structure on the Pytorch [Paszke et al , 2019] platform and use one RTX A5000 GPU as the training hardware.
Pytorch [Paszke et al , 2019]プラットフォーム上でネットワーク構造全体を実装し、トレーニングハードウェアとしてRTX A5000 GPUを1つ使用しています。
0.80
ImageSemanticInstanc ePanoptic
ImageSemanticInstanc ePanoptic
0.20
英語(論文から抽出)
日本語訳
スコア
Fig. 10: Illustration of rectification. Method Baseline Rectification
第10図:修正図。 方法 ベースラインの整流
0.52
mIoU Accuracy 70.37 69.01
奥羽精度70.37 69.01
0.43
87.5 87.26
87.5 87.26
0.25
Table 9: Performance of rectification.
表9: 修正のパフォーマンス。
0.71
E More Ablation Study E.1
E More Ablation Study E.1
0.44
Generalized Bounding Box Detection We compare our Facade R-CNN with Mask R-CNN and Faster R-CNN in terms of fusion performance, where all three R-CNNs use the same baseline segmentation output for fair refinement comparison.
From Table 8, we observe that Facade R-CNN outperforms the competitive counterpart Mask R-CNN by +0.15 mIoU and +0.05 accuracy on the RueMonge2014 dataset.
As for the Oxford dataset, we obtain comparable performance as Mask R-CNN, while using less than 1/30 Flops and 1/150 memory consumption as illustrated in Section 2.3.
E.2 Rectification Except for directly applying parsing models on the deformed facade images, one would also first rectify the facade and then parse the undistorted one as shown in Fig 10.
In this section, we test the performance when this pre-processing technique is introduced.
本稿では,この前処理技術を導入する際の性能について述べる。
0.73
In Table 9, the rectification strategy is not able to bring improvement compared to the baseline.
表9では、整流戦略はベースラインと比較して改善をもたらすことができない。
0.73
F Visualization We report some of the parsing results in Fig 11, where the first two rows are for the Oxford RobotCar Facade dataset, the third row is for the RueMonge2014 dataset, and the last row is for the ECP dataset.
As shown in Fig 11, our proposed generalized bbox is able to deal with the deformed facades and output the mask of the distorted objects, which could serve as a helpful module to refine the pure semantic segmentation output.
[Jaderberg et al , 2015] Max Jaderberg, Karen Simonyan, Andrew Zisserman, et al Spatial transformer networks.
Jaderberg et al , 2015] Max Jaderberg, Karen Simonyan, Andrew Zisserman, et al Space Transformer Network。
0.38
In Proc. Adv.
procで。 adv。
0.47
Neural Inf. Process.
神経障害。 プロセス。
0.62
Syst. , pages 2017–2025, 2015.
シスト。 2015年、2017-2025頁。
0.63
[Kingma and Ba, 2015] Diederik P Kingma and Jimmy Ba.
[Kingma and Ba, 2015]Diederik P KingmaとJimmy Ba。
0.40
Adam: A method for stochastic optimization.
Adam: 確率最適化の方法です。
0.69
In Proc. Int.
procで。 イント
0.43
Conf. Learn. Representations, pages 1–15, 2015.
Conf 学ぶ。 2015年1-15頁。
0.50
[Kirillov et al , 2019] Alexander Kirillov, Kaiming He, Ross Girshick, Carsten Rother, and Piotr Dollar.
Kirillov et al , 2019) Alexander Kirillov, Kaiming He, Ross Girshick, Carsten Rother, Piotr Dollar。
0.36
Panoptic segIn Proc.
panoptic segin proc の略。
0.41
Conf. Comput.
Conf Comput
0.25
Vis. Patt. Recognit.
ビス パット 認識。
0.28
, mentation. pages 9404–9413, 2019.
メンテーション。 2019年、9404-9413頁。
0.51
[Korˇc and Förstner., 2009] F. Korˇc and W. Förstner.
F・K・F・F・フォストナー(2009年)
0.43
etrims image database for interpreting images of man-made scenes.
人造シーンの画像を解釈するための画像データベース。
0.79
Technical Report TR-IGG-P-2009-01, University of Bonn, Dept. of Photogrammetry, 2009.
技術報告 TR-IGG-P-2009-01, Bonn, Dept. of Photogrammetry, 2009
0.39
[Krizhevsky et al , 2012] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton.
[krizhevsky et al , 2012]alex krizhevsky, ilya sutskever, geoffrey e hinton。
0.34
Imagenet classification with deep convolutional neural networks.
深部畳み込みニューラルネットワークを用いた画像ネット分類
0.83
In Proc. Adv.
procで。 adv。
0.47
Neural Inf. Process.
神経障害。 プロセス。
0.62
Syst. , pages 1–9, 2012.
シスト。 2012年1-9頁。
0.62
[Lin et al , 2017] Tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie.
[Lin et al , 2017] Tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, Bharath Hariharan, Serge Belongie] 訳抜け防止モード: [Lin et al, 2017 ]tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, Bharath Hariharan セルゲイ・ベロンティー(Serge Belongie)。
0.87
Feature pyramid networks for object detection.
物体検出のための特徴ピラミッドネットワーク
0.81
In Proc. Conf.
procで。 Conf
0.36
Comput. Vis. Patt.
Comput ビス パット
0.29
Recognit. , pages 2117–2125, 2017.
認識。 2117-2125頁、2017年。
0.42
[Liu et al , 2017] Hantang Liu, Jialiang Zhang, Jianke Zhu, and Steven C. H. Hoi.
[Liu et al , 2017]Hantang Liu, Jialiang Zhang, Jianke Zhu, Steven C. H. Hoi
0.41
Deepfacade: A deep learning approach to facade parsing.
deepfacade: facadeパースに対するディープラーニングアプローチ。
0.70
In Proc. Int.
procで。 イント
0.43
Joint Conf. Artif.
合同会議。 アーティフ
0.48
Intell. , pages 2301–2307, 2017.
インテリ。 2301-2307頁、2017年。
0.55
[Long et al , 2015] Jonathan Long, Evan Shelhamer, and Trevor Darrell.
Fully convolutional networks for semantic segmentation.
意味セグメンテーションのための完全畳み込みネットワーク。
0.65
In Proc. Conf.
procで。 Conf
0.36
Comput. Vis. Patt.
Comput ビス パット
0.29
Recognit. , pages 3431–3440, 2015.
認識。 2015年、3431-3440頁。
0.45
[Ma et al , 2021] Wenguang Ma, Wei Ma, Shibiao Xu, and Hongbin Zha.
[Ma et al ,2021]ウェンガン・マ、ワイ・マ、シービオ・ク、ホンビン・ザ。
0.47
Pyramid alknet for semantic parsing of building facade image.
建築ファサード画像の意味解析のためのピラミッドアルクネット
0.54
IEEE Geosci.
IEEE Geosci所属。
0.85
Remote Sens. Lett.
リモートセン。 レッツ。
0.45
, 18(6):1009–1013, June 2021.
出典:18(6):1009-1013, june 2021。
0.69
[Maddern et al , 2017] Will Maddern, Geoff Pascoe, Chris Linegar, and Paul Newman.
Maddern et al , 2017] Will Maddern、Geoff Pascoe、Chris Linegar、Paul Newman。
0.33
1 Year, 1000km: The Oxford RobotCar Dataset.
1年、1000km:oxford robotcarデータセット。
0.75
Int. J. Robotics Res., 36(1):3–15, January 2017.
イント j. robotics res., 36(1):3–15, 2017年1月。
0.58
[Mathias et al , 2016] M. Mathias, A. Martinovic, and Van Gool.
(Mathias et al , 2016)M. Mathias, A. Martinovic, Van Gool.
0.38
Atlas: A three-layered approach to facade parsing.
Atlas: ファサード解析のための3層アプローチ。
0.77
Int. J. Comput.
イント j・コンプット。
0.43
Vis. , 118(1):22–48, May 2016.
ビス 118(1):22-48, 2016年5月。
0.31
[Mathias, 2012] M. Mathias.
[Mathias, 2012]M. Mathias.
0.47
Automatic architectural style recognition.
アーキテクチャスタイルの自動認識。
0.77
Int. Arch. Photo.
イント アーチ 写真。
0.49
Remote Sens. Spatial Info.
リモートセンシング 空間情報
0.43
Sci. , 16(5):171–176, March 2012.
Sci 16(5):171-176, March 2012。
0.58
[Paszke et al , 2019] Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, et al Pytorch: An imperative style, highperformance deep learning library.
Paszke et al , 2019] Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, et al Pytorch: 命令型スタイルで高性能なディープラーニングライブラリ。
0.82
pages 8026–8037, 2019.
8026-8037、2019年。
0.54
[Ren et al , 2015] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun.
[Ren et al , 2015]Shaoqing Ren、Kaming He、Ross Girshick、Jian Sun。
0.36
Faster r-cnn: Towards real-time object detection with region proposal networks.
Faster r-cnn: リージョン提案ネットワークによるリアルタイムオブジェクト検出を目指す。
0.69
pages 91–99, 2015.
2015年、91-99頁。
0.59
[Riemenschneider et al , 2014] Hayko
[Riemenschneider et al , 2014]Hayko
0.40
Riemenschneider, András Bódis-Szomorú, Julien Weissenberg, and Luc Van Gool.
Riemenschneider、András Bódis-Szomorú、Julien Weissenberg、Luc Van Gool。
0.39
Learning where to classify in multi-view In Proc.
procでマルチビューで分類する場所を学ぶ。
0.65
Eur. Conf. Comput.
Eur! Conf Comput
0.28
semantic segmentation.
セマンティクスのセグメンテーション。
0.58
Vision, pages 516–532, 2014.
516-532頁、2014年。
0.49
[Ronneberger et al , 2015] Olaf Ronneberger, Philipp Fischer, and Thomas Brox.
Ronneberger et al , 2015] Olaf Ronneberger氏、Philipp Fischer氏、Thomas Brox氏。
0.41
U-net: Convolutional networks In Proc.
U-net: Proc.の畳み込みネットワーク。
0.70
Int. Conf. for biomedical image segmentation.
イント Conf バイオメディカル画像のセグメンテーションです
0.46
Med. Imag. Comput.
薬だ イマジ。 Comput
0.42
Comput. Interv.
Comput インターv
0.42
, pages 234–241, 2015.
2015年、234-241頁。
0.73
[Schmitz and Mayer, 2016] Matthias Schmitz and Helmut Mayer.
Schmitz and Mayer, 2016] Matthias SchmitzとHelmut Mayer。
0.36
A convolutional network for semantic facade segmentation and interpretation.
意味的なファサード分割と解釈のための畳み込みネットワーク。
0.67
Int. Arch. Phot.
イント アーチ Phot
0.34
Remote Sens. Spat.
リモートセンシング。
0.42
Info. Sci. , 41(1):709, June 2016.
情報。 Sci 背番号41(1):709, 2016年6月。
0.53
[Schops et al , 2017] Thomas Schops, Torsten Sattler, Christian Hane, and Marc Pollefeys.
(Schops et al , 2017)Thomas Schops、Torsten Sattler、Christian Hane、Marc Pollefeys。
0.34
Large-scale outdoor 3d reconstruction on a mobile device.
モバイルデバイスによる大規模屋外3次元再構築
0.76
Comput. Vision Imag.
Comput ビジョンImag。
0.48
Unders. , 157(4):151–166, April 2017.
アンダース 157(4):151–166, April 2017。
0.36
[Teboul et al , 2011] O. Teboul, I. Kokkinos, Loc Simon, P. Koutsourakis, and N. Paragios.
[Teboul et al , 2011]O. Teboul, I. Kokkinos, Loc Simon, P. Koutsourakis, N. Paragios。
0.46
Shape grammar parsIn Proc.
図形文法のパース Proc。
0.69
Conf. Comput.
Conf Comput
0.25
ing via reinforcement learning.
強化学習によるing。
0.79
Vis. Patt. Recognit.
ビス パット 認識。
0.28
, pages 2273–2280, 2011.
2011年、2273-2280頁。
0.64
[Teboul, 2009] Olivier Teboul.
[Teboul, 2009]Olivier Teboul。
0.38
Ecole centrale paris facades
Ecole Centrale paris facades
0.41
database, 2009.
データベース、2009年。
0.69
Accessed: Oct. 1, 2021.
アクセス:2021年10月1日。
0.59
[Tyleek and Sára, 2013] Radim Tyleek and Radi Sára.
(Tyleek and Sára, 2013)Radim TyleekとRadi Sára。
0.34
Spatial pattern templates for recognition of objects with regIn Proc.
regIn Procによるオブジェクト認識のための空間パターンテンプレート。
0.88
Patt. Recognit. , pages 364–374, ular structure.
パット 認識。 364-374頁。
0.23
2013. [Wu et al , 2014] Bin Wu, Xian Sun, Qichang Wu, Menglong Yan, Hongqi Wang, and Kun Fu.
2013. [Wu et al , 2014]Bin Wu, Xian Sun, Qichang Wu, Menglong Yan, Hongqi Wang, Kun Fu。
0.41
Building reconstruction from high-resolution multiview aerial imagery.
高分解能多視点空中画像による建物再建
0.71
IEEE Geosci.
IEEE Geosci所属。
0.85
Remote Sens. Lett.
リモートセン。 レッツ。
0.45
, 12(4):855–859, November 2014.
背番号12(4):855–859, 2014年11月。
0.59
[Yang and Förstner, 2011] M. Y. Yang and W Förstner.
[Yang and Förstner, 2011]M.Y. YangとW Förstner。
0.45
Regionwise classification of building facade images.
建物ファサード画像の地域別分類
0.69
In Proc. Conf.
procで。 Conf
0.36
Photo. Imag. Anal.
写真。 イマジ。 アナル
0.53
, pages 209–220, 2011.
2011年、209-220頁。
0.69
[Yu and Koltun, 2016] Fisher Yu and Vladlen Koltun.
[Yu and Koltun, 2016]Fisher YuとVladlen Koltun。
0.37
Multiscale context aggregation by dilated convolutions.
拡張畳み込みによるマルチスケールコンテキストアグリゲーション
0.41
In Proc. Int.
procで。 イント
0.43
Conf. Learn. Representations, pages 1–13, 2016.
Conf 学ぶ。 表紙は2016年1-13頁。
0.50
[Zhao et al , 2010] Peng Zhao, Tian Fang, Jianxiong Xiao, Honghui Zhang, Qinping Zhao, and Long Quan.
[Zhao et al , 2010]Peng Zhao、Tian Fang、Jianxiong Xiao、Honghui Zhang、Qinping Zhao、Long Quan。
0.37
Rectilinear parsing of architecture in urban environment.
都市環境における建築の線形解析
0.69
In Proc. Conf.
procで。 Conf
0.36
Comput. Vis. Patt.
Comput ビス パット
0.29
Recognit. , pages 342–349, 2010.
認識。 2010年、342-349頁。
0.47
[Zhao et al , 2017] Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, and Jiaya Jia.
[Zhao et al , 2017]Hongshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, Jiaya Jia。