論文の概要、ライセンス

# (参考訳) ファサード解析R-CNNの構築 [全文訳有]

Building Facade Parsing R-CNN ( http://arxiv.org/abs/2205.05912v1 )

ライセンス: CC BY 4.0
Sijie Wang, Qiyu Kang, Rui She, Wee Peng Tay, Diego Navarro Navarro, Andreas Hartmannsgruber(参考訳) ファサード構築のためのピクセルレベルのラベルを予測するファサード解析は、自律走行車(AV)のコンピュータビジョン認識に応用されている。 しかし、フロントビューの代わりに、AVのオンボードカメラは、カメラの視点により、AVが走行している道路の両側にある建物のファサードの変形したビューをキャプチャする。 本稿では,トランスconvモジュール,一般化された境界ボックス検出,凸正規化を含むファサードr-cnnを提案し,変形したファサードビューの解析を行う。 実験により、ファサードr-cnnは、主にフロントビュー向けに開発された現在のファサード解析モデルよりも優れた性能を達成できることが示されている。 また,oxford robotcarファサードデータセットと呼ばれるoxford robotcarデータセットから派生した,新たなビルディングファサード解析データセットを公開する。 このデータセットには、ファサードオブジェクト構築の正確なアノテーションを付加したOxford RobotCarデータセットの500のストリートビューイメージが含まれている。 公開されたデータセットはhttps://github.com/s ijieaaa/Oxford-Robot Car-Facadeで公開されている。

Building facade parsing, which predicts pixel-level labels for building facades, has applications in computer vision perception for autonomous vehicle (AV) driving. However, instead of a frontal view, an on-board camera of an AV captures a deformed view of the facade of the buildings on both sides of the road the AV is travelling on, due to the camera perspective. We propose Facade R-CNN, which includes a transconv module, generalized bounding box detection, and convex regularization, to perform parsing of deformed facade views. Experiments demonstrate that Facade R-CNN achieves better performance than the current state-of-the-art facade parsing models, which are primarily developed for frontal views. We also publish a new building facade parsing dataset derived from the Oxford RobotCar dataset, which we call the Oxford RobotCar Facade dataset. This dataset contains 500 street-view images from the Oxford RobotCar dataset augmented with accurate annotations of building facade objects. The published dataset is available at https://github.com/s ijieaaa/Oxford-Robot Car-Facade
公開日: Thu, 12 May 2022 07:08:45 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Building Facade Parsing R-CNN ファサード解析R-CNNの構築 0.55
Sijie Wang∗1, Qiyu Kang∗1, Rui She1, Wee Peng Tay1, Sijie Wang∗1, Qiyu Kang∗1, Rui She1, Wee Peng Tay1, 0.41
Diego Navarro Navarro2, and Andreas Hartmannsgruber2 † Diego Navarro Navarro2とAndreas Hartmannsgruber2 0.39
2 2 0 2 y a M 2 1 2 2 0 2 y a m 2 1 である。 0.52
] V C . s c [ ] 略称はC。 sc [ 0.39
1 v 2 1 9 5 0 1 v 2 1 9 5 0 0.43
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Abstract Building facade parsing, which predicts pixel-level labels for building facades, has applications in computer vision perception for autonomous vehicle (AV) driving. 概要 ファサード構築のためのピクセルレベルのラベルを予測するファサード解析は、自律走行車(AV)のコンピュータビジョン認識に応用されている。 0.57
However, instead of a frontal view, an on-board camera of an AV captures a deformed view of the facade of the buildings on both sides of the road the AV is travelling on, due to the camera perspective. しかし、フロントビューの代わりに、AVのオンボードカメラは、カメラの視点により、AVが走行している道路の両側にある建物のファサードの変形したビューをキャプチャする。 0.65
We propose Facade RCNN, which includes a transconv module, generalized bounding box detection, and convex regularization, to perform parsing of deformed facade views. 本稿では,ファサードビューのパースを行うために,トランスconvモジュール,一般化された境界ボックス検出,凸正規化を含むファサードrcnnを提案する。 0.69
Experiments demonstrate that Facade RCNN achieves better performance than the current state-of-the-art facade parsing models, which are primarily developed for frontal views. 実験により、ファサードrcnnは、主にフロントビュー向けに開発された現在のファサード解析モデルよりも優れた性能を達成できることが示されている。
訳抜け防止モード: Facade RCNNは,現在の--アートファサード解析モデルよりも優れたパフォーマンスを実現している。 主に正面視のために開発されています
0.67
We also publish a new building facade parsing dataset derived from the Oxford RobotCar dataset, which we call the Oxford RobotCar Facade dataset. また,oxford robotcarファサードデータセットと呼ばれるoxford robotcarデータセットから派生した,新たなビルディングファサード解析データセットを公開する。 0.74
This dataset contains 500 street-view images from the Oxford RobotCar dataset augmented with accurate annotations of building facade objects. このデータセットには、ファサードオブジェクト構築の正確なアノテーションを付加したOxford RobotCarデータセットの500のストリートビューイメージが含まれている。 0.58
The published dataset is available at https://github.com/ sijieaaa/Oxford-Robo tCar-Facade 公開されたデータセットはhttps://github.com/ sijieaaa/Oxford-Robo tCar-Facadeで公開されている。 0.35
1 Introduction Building facade parsing or segmentation is a task that classifies the building facade image into elements from different semantic categories. 1: ビルディングファサード解析またはセグメンテーションは、ビルディングファサードイメージを異なるセマンティックカテゴリの要素に分類するタスクである。 0.77
Building facade parsing finds applications in a wide array of fields, including urban augmented reality (AR) [Fond et al , 2017], camera pose estimation [Fond et al , 2021], 3D building reconstruction [Wu et al , 2014], and visual Simultaneous Localization And Mapping (SLAM) in street scenes [Schops et al , 2017]. ファサード解析は、都市拡張現実(ar) [fond et al , 2017]、カメラのポーズ推定 [fond et al , 2021]、3dビルの再構築 [wu et al , 2014]、街路シーンにおけるビジュアル同時ローカライゼーションとマッピング (slam) [schops et al , 2017]など、幅広い分野で応用されている。 0.73
The facade segmentation results from general semantic segmentation neu- 一般意味セグメンテーションneuのファサードセグメンテーション結果 0.54
∗First two authors contributed equally to this work. 2人の著者がこの作品に等しく貢献した。 0.57
†The authors 1 are with the Continental-NTU Corporate Lab, Nanyang Technological University, 50 Nanyang Avenue, 639798, Singapore. 著者1人はコンチネンタル・NTUコーポレート・ラボ、南陽技術大学、50南陽アベニュー、639798のシンガポールにいる。 0.61
Emails: rui.she@; wptay@}ntu.edu.sg The gapore Pte Ltd, Emails: dreas.hartmannsgrube r}@continental.com. メール: rui.she@; wptay@}ntu.edu.sg The gapore Pte Ltd, Emails: dreas.hartmannsgrube r}@continental.com 0.42
are with Continental Automotive {diego.navarro.navarr o; ディーゴ・ナバロ・ナバロという大陸自動車 0.36
{ wang1679@e. 例: wang1679@e。 0.55
;qiyu.kang@; ;qiyu.kang@; 0.49
authors 2 Sinan- ral networks [Badrinarayanan et al , 2017; Chen et al , 2018; Zhao et al , 2017], although promising, appear coarse. 作者 2 シナン ラルネットワーク[Badrinarayanan et al , 2017; Chen et al , 2018; Zhao et al , 2017]は、有望だが、粗いように見える。 0.51
Accurate facade parsing is a challenging task due to the complexity of facade images and the limitation of vanilla semantic segmentation networks that do not incorporate any domain knowledge. 正確なファサード解析は、ファサード画像の複雑さとドメイン知識を含まないバニラ意味セグメンテーションネットワークの限界のために難しい課題である。 0.64
Early learning approaches for building facade parsing like [Yang and Förstner, 2011] adopt the randomized decision forest and the conditional random field to perform region-wise classification. ファサード解析を構築するための早期学習アプローチ [yang and förstner, 2011] は、ランダム化決定フォレストと条件付きランダムフィールドを採用し、地域別分類を行う。 0.76
The papers [Zhao et al , 2010; Mathias, 2012; Teboul et al , 2011] assume prior knowledge of the regular facade layout or shape grammars for man-made structures to generate neat segmentation maps. 論文[zhao et al , 2010; mathias, 2012; teboul et al , 2011]は、人造構造物の通常のファサード配置や形状文法の事前知識を仮定し、きちんとしたセグメンテーションマップを生成する。 0.83
However, the hand-crafted prior knowledge is highly constrained and these approaches are not robust enough, with a tendency to generate poor predictions in real applications. しかし、手作りの事前知識は非常に制約があり、これらのアプローチは十分に堅牢ではなく、実際のアプリケーションでは予測が不十分な傾向にある。 0.60
Recently, with the prevalence of deep learning, convolutional neural networks (CNNs) have been widely adopted to perform building facade parsing. 近年、ディープラーニングの普及に伴い、畳み込みニューラルネットワーク(CNN)が建築ファサード解析に広く採用されている。 0.58
The work [Schmitz and Mayer, 2016] treats the task as a general image segmentation problem using CNNs without any structural domain knowledge. この作業(Schmitz and Mayer, 2016)は、CNNを用いて、構造的なドメイン知識のない一般的な画像分割問題としてタスクを扱います。
訳抜け防止モード: 作業[Schmitz and Mayer, 2016 ]は、タスクを一般的な画像分割問題として扱う 構造的なドメイン知識のないCNNを使用する。
0.74
Later works like DeepFacade [Liu et al , 2017] and PALKN [Ma et al , 2021] make use of the regular structure of facades to achieve better semantic results. その後、DeepFacade (Liu et al , 2017) や PALKN (Ma et al , 2021) のように、ファサードの正規構造を利用して、よりセマンティックな結果を得る。
訳抜け防止モード: 後にDeepFacade[Liu et al, 2017]のように動作する。 PALKN [Ma et al, 2021 ] はファサードの正規構造を利用する より良いセマンティックな結果が得られます
0.81
And the work [Femiani et al , 2018] proposes three different network architectures to better dealing with frontal view facade images with varying complexity. そして、[Femiani et al , 2018] は3つの異なるネットワークアーキテクチャを提案し、様々な複雑さを持つ正面のファサードイメージをよりよく扱う。 0.72
All the above CNN-based facade parsing models like [Liu et al , 2017; Ma et al , 2021] are trained on datasets with approximately frontal facade views. 上記のCNNベースのファサード解析モデル(Liu et al , 2017; Ma et al , 2021)はすべて、ほぼ正面ファサードビューのデータセットでトレーニングされている。 0.74
In an autonomous vehicle (AV), an on-board camera typically captures a deformed view of the buildings alongside the road the AV is travelling. 自動運転車(AV)では、車載カメラが通常、AVが走行している道路沿いの建物の変形した景色を捉えます。 0.73
See Fig 2 for an example. 例:fig 2を参照。 0.60
While pre-processing techniques [Fond et al , 2021] can be used to reconstruct an approximate frontal representation, this additional step can introduce errors and undesirable artifacts, which will subsequently degrade the deep learning model accuracy. 事前処理技術(fond et al , 2021]は、近似的なフロント表現の再構築に使用できるが、この追加ステップはエラーと望ましくないアーティファクトを導入し、ディープラーニングモデルの精度を低下させる。 0.70
Alternatively, one can train a current state-of-the-art model like DeepFacade or PALKN using labeled deformed images from an AV camera perspective. あるいは、AVカメラの観点からラベル付きデフォルメ画像を使用して、DeepFacadeやPALKNのような現在の最先端モデルをトレーニングすることもできる。 0.58
However, to the best of our knowledge, there are no datasets containing images from such a camera perspective with accurate building facade annotations. しかし、私たちの知る限りでは、ファサードアノテーションを正確に構築するカメラの観点からの画像を含むデータセットは存在しない。 0.69
To better deal with the above challenges, we introduce a dataset with accurate human annotations using the facade im- 上記の課題に対処するため,facade imを用いた正確な人間アノテーションを用いたデータセットを提案する。 0.62
英語(論文から抽出)日本語訳スコア
ages from the public Oxford Radar RobotCar Dataset [Maddern et al , 2017]. the public oxford radar robotcar dataset [maddern et al , 2017] (英語) 0.33
This new dataset consists of 500 streetview images, on which we have performed accurate annotations of objects like windows and balconies on building facades. この新しいデータセットは500枚のストリートビューイメージで構成されており、ファサード構築時にウィンドウやバルコニーのようなオブジェクトの正確なアノテーションを実行しています。 0.62
An example is shown in Fig 6. 例が図6に示されています。 0.67
We further propose a new facade parsing model called Facade R-CNN. さらに,facade r-cnnと呼ばれる新しいファサード解析モデルを提案する。 0.61
Different from general objects, most of the objects on a building facade like windows are highly geometrically constrained. 一般的なオブジェクトとは違って、ビルのファサードにあるほとんどのオブジェクトは高度に幾何学的に制約されている。 0.60
This observation has been similarly utilized in [Liu et al , 2017], where the authors focused on the symmetry properties of facades and proposed regularizers to force the centers of each vertical or horizontal line segment of objects to have small variance. この観測は [Liu et al , 2017] でも同様に利用されており、著者らはファサードの対称性に焦点をあて、各垂直線または水平線のセグメントの中心に小さなばらつきを強いる正則化器を提案した。 0.81
They also proposed to use an object detection module named Faster R-CNN [Ren et al , 2015] to output bounding boxes (bboxes) for rectangular windows. 彼らはまた、r-cnn[ren et al , 2015]と呼ばれるオブジェクト検出モジュールを使用して、矩形ウィンドウのバウンディングボックス(bboxes)を出力することも提案した。 0.65
The main difference to our work is that we directly propose to use the transconv module to better learn the symmetric and sheared geometry features of objects. 私たちの研究の主な違いは、transconvモジュールを使ってオブジェクトの対称的およびせん断された幾何学的特徴をよりよく学ぶことを直接提案することです。
訳抜け防止モード: 私たちの仕事の主な違いは 我々は直接transconvモジュールを用いて物体の対称およびせん断幾何学的特徴をよりよく学ぶことを提案する。
0.82
We also observe that the objects shown in many facade images like Fig 2 are not perfect rectangles. また、図2のような多くのファサード画像に示されている物体は完全長方形ではないことも観察する。 0.60
As a result they fit neither the vanilla rectangular bbox nor the symmetric loss constraint in [Liu et al , 2017]. その結果、それらは[Liu et al , 2017] のバニラ矩形箱にも対称損失制約にも適合しない。 0.78
We instead propose a less restrictive regularization using the concept of a convex hull, based on the observation that even in a deformed image from an AV camera perspective, objects like windows and doors still maintain convex shapes. その代わりに、avカメラの視点から変形した画像であっても、窓やドアなどの物体は凸形状を維持しているという観察に基づいて、凸殻の概念を用いた制限の少ない正規化を提案する。 0.68
Moreover, instead of outputting a rectangular bbox from the object detection module, we propose to output a generalized bbox that regresses a general quadrilateral. さらに,対象検出モジュールから長方形bboxを出力する代わりに,一般の四辺形を回帰する一般化bboxを出力することを提案する。 0.79
Our main contributions are summarized as follows: 1) We propose Facade R-CNN that consists of a transconv module, generalized bbox detection, and convex regularization to perform facade object recognition from nonfrontal building views. 1) トランスコンブモジュール, 一般化されたbbox検出, 凸正則化からなるファサードR-CNNを提案し, 非フロントビルディングビューからファサードオブジェクト認識を行う。
訳抜け防止モード: 主なコントリビューションは以下のとおりである。 1 ) Transconvモジュールで構成されるFacade R - CNNを提案する。 一般化されたbbox検出と凸正則化 非正面の建物ビューから ファサードオブジェクト認識を行う。
0.67
2) We introduce a new facade parsing dataset called the Oxford RobotCar Facade dataset, which contains challenging street-view building facade images captured in an autonomous driving environment and has high-quality annotations. 2) オックスフォード・ロボカーファサードデータセット(oxford robotcar facade dataset)と呼ばれる新しいファサード解析データセットを導入する。
訳抜け防止モード: 2)Oxford RobotCar Facadeデータセットと呼ばれる新しいファサード解析データセットを導入する。 自動運転車で撮影したファサード映像を映し出す。 高い品質のアノテーションがあります。
0.67
3) We conduct extensive comparisons and ablation studies to demonstrate that Facade R-CNN achieves the stateof-the-art performance for the facade parsing task. 3) ファサードR-CNNがファサード解析タスクの最先端性能を達成することを示すため, 広範囲な比較とアブレーション研究を行った。 0.63
The rest of this paper is organized as follows. 本論文の残りは以下のとおり整理される。 0.76
We present our proposed Facade R-CNN model in Section 2. 第2節で提案するFacade R-CNNモデルについて述べる。 0.64
In Appendix C, we present the Oxford RobotCar Facade dataset. Appendix Cでは、Oxford RobotCar Facadeデータセットを提示する。 0.82
In Section 4, we evaluate the performance of our model on three datasets, with comparison to other baseline models. 第4節では、他のベースラインモデルと比較して、3つのデータセットでモデルの性能を評価する。 0.74
We present further detailed ablation studies in Section 本項でさらに詳細なアブレーション研究を行う。 0.64
5. We conclude the paper in Section 第5節で論文を締めくくる 0.48
6. We also refer interested readers to the supplementary material for a more detailed account of related works. 6 関連作品のより詳細な説明については、興味ある読者に補足資料を参照すること。 0.61
2 Proposed Approach In this section, we present the proposed Facade R-CNN. 2 提案するアプローチ 本項目では,提案するFarcade R-CNNについて述べる。 0.67
We introduce three modules: the transconv module, the generalized bbox detection, and the convex regularization. 本稿では,Transconvモジュール,一般化bbox検出,凸正規化の3つのモジュールを紹介する。 0.75
The loss function together with the fusion method is also presented in this section. 本項では, 核融合法による損失関数についても述べる。 0.73
Fig. 1: Overview architecture of Facade R-CNN. 図1:Facade R-CNNの概要アーキテクチャ 0.71
2.1 Network Architecture An overview of the architecture of Facade R-CNN is shown in Fig 1. 2.1 ネットワークアーキテクチャFacade R-CNNのアーキテクチャの概要を図1に示す。 0.84
It is composed of three modules: a backbone, and two branches performing the semantic segmentation decoding and the object detection, respectively. バックボーンとセマンティックセグメンテーションデコーディングとオブジェクト検出を行う2つのブランチの3つのモジュールで構成されている。 0.73
The semantic segmentation decoding branch outputs the pixel-level semantic class for the facade image, while the the object detection branch outputs object-level generalized bboxes, which we further discuss in Section 2.3. セマンティックセグメンテーション復号部はファサード画像のピクセルレベルのセマンティッククラスを出力し、オブジェクト検出部はオブジェクトレベルの一般化ボックスを出力し、セクション2.3でさらに議論する。 0.80
The outputs from the two branches are fused using a score thresholding approach in Section 2.5. 2つの枝からの出力は、第2.5節のスコア閾値法を用いて融合される。 0.61
2.2 Transconv Module Unlike objects that have irregular shapes in general segmentation tasks, the objects like windows and balconies on a building facade are highly regular with convex shapes. 2.2 Transconv Module 一般的なセグメンテーションタスクで不規則な形状のオブジェクトとは異なり、ビルファサードの窓やバルコニーのようなオブジェクトは凸形状で非常に規則的である。 0.75
When the surface of the facade is parallel to the camera imaging plane, such objects in the facade image present as rectangular. ファサードの表面がカメラ撮像面と平行である場合、ファサード画像中のそのような物体は長方形として存在する。 0.70
However, as alluded to above, in applications like AV driving, buildings may not be oriented parallel to the camera, e g , as in Fig 2, objects are presented as deformed rectangles in the images. しかし、上述したように、AV運転のようなアプリケーションでは、Fig 2のように、建物はカメラと平行な方向を向かわず、オブジェクトは画像内の変形矩形として表現される。 0.72
We first model the inclined facades as deformed grids shown in Fig 2, with lines corresponding to facade objects’ (e g , windows) edges in both the height and depth directions. まず,傾斜したファサードを図2に示す変形格子としてモデル化し,高さ方向と深さ方向の両方にファサード対象のエッジ(窓など)に対応する線を配置した。 0.75
We observe that, along the depth direction, the line intersection angles are fixed, while only the scales of the grids on the building facade vary. 深さ方向に沿って線交点角が固定されているのに対し、建物ファサード上の格子のスケールのみが異なることが観察された。 0.71
Using a multi-scaled CNN backbone [He et al , 2016] is robust to scale changes. マルチスケールのCNNバックボーン[He et al , 2016]を使用することで、変更のスケールアップが堅牢になります。
訳抜け防止モード: マルチスケールCNNバックボーン [He et al, 2016] 変化を拡大するのに頑丈です
0.60
However, when dealing with the height direction deformations, both the line intersection angles and the scales of the grids are varied, and the multi-scaling strategy is insufficient for convolutional (conv) kernels to detect the deformed patterns. しかし、高さ方向の変形に対処する際には、線交叉角と格子のスケールが異なるため、変形したパターンを検出するための畳み込み(畳み込み)カーネルにはマルチスケーリング戦略が不十分である。 0.79
Another latent property of facades along a road is the symmetric distribution. 道路に沿ったファサードのもう1つの潜在性質は対称分布である。 0.62
As shown in Fig 2, the left and right building facades are highly symmetric to each other. 図2に示すように、左右の建物のファサードは互いに非常に対称である。 0.76
According to [Krizhevsky et al , 2012], kernels in the first conv layer play more basic roles to detect geometric patterns like lines and corners. [krizhevsky et al , 2012] によると、最初のconv層のカーネルは線や角のような幾何学的パターンを検出するためにより基本的な役割を果たす。 0.64
From [Cohen and Welling, 2016], the combination of rotated conv kernel groups ensures equivariance towards image rotations. Cohen and Welling, 2016] から、回転したconvカーネル群の組み合わせは、画像の回転に対して同値である。 0.64
We explore solutions to obtain stronger semantics by applying more general affine transformations, including flipping, rotation, and shearing, on the conv kernels to detect more deformed patterns. 我々は, より一般的なアフィン変換, 回転, せん断などを適用して, より変形したパターンを検出することで, より強力な意味論を求める。 0.74
Specifically, we propose the transconv module to allow the network to 具体的には、ネットワークを許可するtransconvモジュールを提案する。 0.76
BackboneDetectionfea tureSegmentationfeat ureImageGeneralisedB ounding boxSemantic maskFinal outputFusion BackboneDetectionFea tureSegmentationFeat ureImage GeneralizedBounding boxSemantic maskFinal outputFusion 0.10
英語(論文から抽出)日本語訳スコア
parse deformed object images. 変形したオブジェクトイメージをパースする。 0.50
This module contains a bag of sheared and flipped conv kernels. このモジュールは、せん断およびフリップされたconvカーネルの袋を含んでいる。 0.62
Given the vanilla conv kernel, G0 ∈ RWG×WG×CG, we obtain the same sized transformed conv kernel Gshe,φ,m ∈ RWG×WG×CG, where φ ∈ [0◦, 180◦) are the sheared angles along the second coordinate axis, and m ∈ {0, 1} represent the flipping operation, as follows. バニラ凸核 G0 ∈ RWG×WG×CG が与えられたとき、同じ大きさの変換凸核 Gshe,φ,m ∈ RWG×WG×CG を得る。
訳抜け防止モード: バニラ凸核 G0 ∈ RWG×WG×CG を考えると、同じ大きさの変換凸核 Gshe が得られる。 φ, m ∈ RWG×WG×CG, ここで φ ∈ [0 , 180 , ) は第2座標軸に沿ったせん断角度である。 m ∈ { 0, 1 } はフリップ演算を表す。 以下の通りです
0.84
We first define an intermediate variable: G(cid:48) she,φ,m(ushe,φ,m, vshe,φ,m) = G0(u, v), まず、中間変数 G(cid:48) she,φ,m(ushe,φ,m, vshe,φ,m) = G0(u, v) を定義する。 0.83
(1) where G0(u, v) ∈ RCG is the (u, v)-th point in the kernel G0 and G(cid:48) she,φ,m(ushe,φ,m, vshe,φ,m) the corresponding sheared point, is the (ushe,φ,m, vshe,φ,m)-th point in the kernel G(cid:48) she,φ,m. 1) g0(u, v) ∈ rcg がカーネル g0 の (u, v) 番目の点であり、g(cid:48) she, φ,m(ushe, φ,m, vshe, φ,m) に対応するせん断点がカーネル g(cid:48) she, φ,m の (ushe, φ,m, vshe, φ,m) 番目の点である。 0.83
We obtain (ushe,φ,m, vshe,φ,m) by transforming1 the coordinates (u, v) via: 座標 (u, v) を変換することで (ushe,φ,m, vshe,φ,m) を得る。 0.69
(cid:20) (−1)m 0 (cid:20) (−1)m 0 0.44
(cid:21)(cid:20) u (cid:21)(cid:20)u 0.38
(cid:21) (cid:21) (出典:21) (出典:21) 0.68
(cid:20) ushe,φ,m (cid:20)ushe,φ,m 0.47
vshe,φ,m tan(φ) 1 vshe,φ,m tan (複数形 tans) 0.50
v . (2) = The set of all transformations forms a group with the group binary operation being the composition of transformations, which we call the shearing group. v . (2) = すべての変換の集合は群二元演算が変換の合成である群を形成し、これをせん断群と呼ぶ。
訳抜け防止モード: v . (2) = すべての変換の集合は群を形成し、群二元演算は変換の合成である。 これをシアリンググループと呼んでいます
0.50
The transformation of conv kernels in our paper is the same as the implementation in [Cohen and Welling, 2016, eq. 18]. 論文におけるconvカーネルの変換は[Cohen and Welling, 2016, eq. 18]の実装と同じである。 0.66
In [Cohen and Welling, 2016], the authors proposed to use symmetry groups (subgroups of the isometry group) including p4 and p4m. 著者らは[Cohen and Welling, 2016]において、p4 と p4m を含む対称性群(等尺群の部分群)を使うことを提案した。
訳抜け防止モード: 著者が提案した[Cohen and Welling, 2016 ] p4 と p4 m を含む対称群(等尺群の部分群)を使用する。
0.77
By contrast, we propose to use the non-isometry shearing group to better deal with image deformations. 対照的に, 画像変形をよりよく扱うために, 非等尺せん断群を用いることを提案する。 0.68
However the above ushe,φ,m and vshe,φ,m are not guaranteed to be integers. しかし上記の ushe,φ,m と vhe,φ,m は整数であることが保証されていない。 0.79
We therefore perform an additional bilinear interpolation: したがって、追加の双線形補間を行う。 0.63
Gshe,φ,m = itp(G(cid:48) Gshe,φ,m = itp(G(cid:48) 0.49
she,φ,m), where itp(·) is the bilinear interpolation function [Jaderberg et al , 2015]. 彼女,φ,m) ここで itp(·) は双線型補間関数 [Jaderberg et al , 2015] である。 0.75
In [Cohen and Welling, 2016], each group conv layer outputs a set of group feature maps. Cohen and Welling, 2016] では、各グループ conv 層がグループ特徴写像のセットを出力します。 0.67
By contrast, to maintain the succeeding backbone architecture consistency, we perform a summation for the output group features. 対照的に、後続するバックボーンアーキテクチャの整合性を維持するために、出力グループ機能の和を実行する。 0.61
Given the input I ∈ RH×W×D, the aggregated feature I(cid:48) ∈ RH(cid:48)×W (cid:48)×D(cid:48) is obtained via: 入力 I ∈ RH×W×D が与えられたとき、集約された特徴 I(cid:48) ∈ RH(cid:48)×W(cid:48)×D(cid:48) は以下の通りである。 0.72
(3) where ∗ denotes the convolution operation. (3) ここで ∗ は畳み込み演算を表す。 0.63
By incorporating features under transformed conv kernels, the transconv module can detect more deformed patterns and thus is more robust when dealing with facade images from on-board camera views. 変換されたconvカーネルの下に機能を組み込むことで、transconvモジュールはより変形したパターンを検出でき、オンボードカメラからのファサード画像を扱う際により堅牢になる。 0.64
φ,m Gshe,φ,m ∗ I, φ,m gshe, φ,m ∗ i である。 0.62
(cid:88) I(cid:48) = (cid:88) I(cid:48) = 0.42
1We refer the reader to the supplementary materials for more de- 1 追加資料については、読者を参照。 0.56
tails about the kernel transformation. カーネル・トランスフォーメーションの尾です 0.48
2.3 Generalized Bounding Box Detection 2.3 汎用バウンディングボックス検出 0.74
Fig. 3: Generalized bounding box. 図3: 一般化されたバウンディングボックス。 0.69
MAdd Head 1.06G Mask R-CNN Faster R-CNN 27.87M 13.93M Facade R-CNN 27.93M 13.97M MAdd Head 1.06G Mask R-CNN Faster R-CNN 27.87M 13.93M Facade R-CNN 27.93M 13.97M 0.24
Memory 478.17M 1.56M 0.01M 0.01M メモリ478.17M 1.56M 0.01M 0.01M 0.38
Flops Table 1: MAdd, Flops, and memory usage statistics comparison for different R-CNN heads. フラップ 表1: madd, flops, memory usage statistics 異なる r-cnn ヘッドの比較。 0.62
In a typical object detection network [Ren et al , 2015], the output is a rectangular bbox. 典型的な物体検出ネットワーク[Ren et al , 2015]では、出力は長方形のbboxである。 0.86
In DeepFacade [Liu et al , 2017], the vanilla rectangular bbox is used to refine the rectangular objects like windows on the building facade. DeepFacade [Liu et al , 2017]では、バニラ長方形のボックスを使って、建物ファサードの窓のような長方形のオブジェクトを洗練します。 0.69
However, the rectangular bbox is only applicable to rectified facade images taken from the frontal perceptive which is rare in actual situations like images taken from on-vehicle front cameras. しかし、長方形のボックスは、車載フロントカメラから撮影した画像のような実際の状況では稀な前頭知覚から得られた補正されたファサード画像にのみ適用できる。 0.62
As illustrated in Section 2.2, when the camera view is changed, the objects on the facade no longer have a rectangular shape, while a rectangular bbox would still regard the deformed quadrilateral as the rectangle and hence result in wrong predictions for some pixels. 第2節2に示すように、カメラビューが変更された場合、ファサード上の物体はもはや長方形ではなく、長方形のbボックスは変形した四角形を長方形と見なす。
訳抜け防止モード: 第2条2項に示すように カメラビューが変更されたとき、ファサード上の物体はもはや長方形の形状を持たない。 長方形のbボックスが 変形した四角形を 長方形と見なす一方で その結果、いくつかのピクセルに対する誤った予測が生まれます。
0.67
To construct a more robust object detection head to refine the output from the semantic segmentation branch in Fig 1, we propose the generalized bbox detector, which can better fit the deformed facade objects. 図1のセマンティックセグメンテーションブランチからの出力を改善するために、より堅牢なオブジェクト検出ヘッドを構築するために、変形したファサードオブジェクトに適合する一般化されたbbox検出器を提案する。 0.76
As shown in Fig 3, we first define the top-left, top-right, bottom-left and bottom-right corners of the window to be pTL, pTR, pBL, and pBR, respectively. 図3に示すように、まず、ウィンドウの左上、右上、右下、右下をそれぞれpTL、pTR、pBL、pBRと定義する。
訳抜け防止モード: 図3に示すように、最初にトップを定義するのは、左、左です。 上-右-下-左右-右-窓の隅 ptl、ptr、pbl、pbrである。
0.61
Then, for a general quadrilateral object, we use two bboxes to represent it: the bboxTL−BR formed by pTL and pBR, and the bboxTR−BL formed by pTR and pBL. 次に、一般的な四辺形の物体に対して、pTLとpBRで形成されたbboxTL-BRとpTRとpBLで形成されたbboxTR-BLの2つのbboxを用いて表現する。 0.69
The two rectangular bboxes are used respectively to find the two sets of non-adjacent vertices of the quadrilateral object. 2つの長方形のbボックスは、それぞれ四角形物体の非隣接頂点の2組を見つけるために使用される。 0.68
We construct the generalized bbox detection head as shown in Fig 4, which is based on the basic Faster R-CNN head. 我々は、Faster R-CNNヘッドに基づく一般化されたbbox検出ヘッドをFig 4に示すように構築する。 0.76
The Mask R-CNN predicts the dense semantic map by adding an extra FCN branch. Mask R-CNNは、追加のFCNブランチを追加することで、密接なセマンティックマップを予測する。 0.56
By contrast, our Facade R-CNN that specializes to facade object parsing does not require any extra segmentation module. 対照的に、ファサードオブジェクト解析に特化したFacade R-CNNでは、余分なセグメンテーションモジュールは不要です。 0.66
To demonstrate the design efficiency for our generalized bbox detection head, we show head computation statistics in Table 12.Compared with the Mask RCNN head, our pure bbox regression head consumes 1/30 less MAdd and Flops and 1/150 less memory usage, and has similar efficiency as Faster R-CNN. 汎用bbox検出ヘッドの設計効率を表12に示すため,MAsk RCNNヘッドと比較すると,純粋なbbox回帰ヘッドはMAddとFlopsを1/30少なく,メモリ使用量を1/150削減し,より高速なR-CNNと同様の効率を有する。 0.86
Fig. 2: Deformed facade image patterns 第2図 変形したファサード画像パターン 0.73
2We use torchstat from https://github.com/S wall0w/ 2 torchstat from https://github.com/S wall0w/ 0.27
torchstat as the analysis tool. 分析ツールとしてのトーチスタット 0.73
HeightDepthDepthHeig htproposalbboxTL-BRb boxTR-BLbbox ground truthcorner point(pTL, pTR,pBL, pBR)pTLpBLpTRpBR 高さDepthDepthHeightprop osalbboxTL-BRbboxTR- BLbbox Ground truthcorner Point(pTL,pTR,pBL,pB R)pTLpBLpTRpBR 0.33
英語(論文から抽出)日本語訳スコア
Fig. 4: Head comparison. 第4図:頭部の比較。 0.75
Left: the heads of Faster R-CNN and Mask R-CNN. 左:より高速なr-cnnとマスクr-cnnの頭。 0.55
Right: the head of our Facade R-CNN. 右:ファサードR-CNNの責任者。 0.65
Fig. 5: Convex regularization for the non-convex segmentation output. 第5図:非凸セグメンテーション出力に対する凸正規化。 0.64
Following Faster R-CNN, we first use the Region Proposal Network (RPN) to generate candidate proposals. r-cnnの高速化に続いて,まず地域提案ネットワーク(rpn)を用いて提案候補を生成する。 0.70
In the Faster R-CNN, each proposal has only one rectangular bbox regression target. Faster R-CNNでは、各提案は1つの長方形のbbox回帰ターゲットしか持たない。 0.59
By contrast, in our Facade R-CNN, each proposal regresses two rectangular bboxes to construct the final generalized bbox as illustrated above. 対照的に、私たちのFacade R-CNNでは、各提案は2つの長方形のbboxを回帰して、上述したように、最終的な一般化bboxを構築する。 0.47
We minimize the following objective function: 以下の目的関数を最小化する。 0.73
Ldetection = Ldetection = 0.42
2 Nbbox 2(cid:88) 2 Nbbox 2(第88回) 0.49
(cid:18) Nbbox/2(cid:88) (出典:18)Nbbox/2(出典:88) 0.54
k=1 (cid:0)(cid:96)ce(tc ls,k, t∗ xywh,k,i)(cid:1)(cid :19) k=1 である。 (cid:0)(cid:96)ce(tc ls,k, t∗ xywh,k,i)(cid:1)(cid :19) 0.37
cls,k) cls (複数形 cls) 0.65
+ (cid:96)smoothL1(txy wh,k,i − t∗ + (cid:96)smoothL1(txy wh,k,i − t∗ 0.44
, (4) i=1 , (4) i=1 である。 0.39
where Nbbox is the number of output rectangular bboxes, tcls,k is a probability vector for classification of the k-th generalized bbox, t∗ cls,k is the classification target, txywh,k,i is a vector that contains center coordinates, width, and height outputs of the i-th (i ∈ {1, 2}) rectangular bbox for the k-th generalized bbox, t∗ xywh,k,i is the regression target, (cid:96)ce is the cross-entropy loss, and (cid:96)smoothL1 is the smooth L1 function [Girshick, 2015]. Nbbox が出力長方形 bbox の数、tcls,k が k-次一般化 bbox の分類の確率ベクトル、t∗ cls,k が分類対象、txywh,k,i が k-次一般化 bbox の中心座標、幅、高さ出力を含むベクトル、t∗ xywh,k,i が回帰対象、(cid:96)ce がクロスエントロピー損失、(cid:96)smoothL1 が滑らかな L1 関数 [Girshick, 2015] である。
訳抜け防止モード: Nbbox は出力長方形の bbox や tcl の数です。 k は k - th 一般化 bbox の分類の確率ベクトルである。 t∗ cls, k は分類対象 txywh, k である i は i - th の中央座標、幅、高さの出力を含むベクトルである。 i ∈ { 1, 2 } ) k - th の一般 bbox, t∗ xywh の矩形 bbox 。 k, iは回帰目標、(cid:96)ceはクロス-エントロピー損失である。 cid:96)smoothL1は滑らかなL1関数である[Girshick, 2015 ]。
0.84
2.4 Convex Regularization In this section, we introduce a convex regularization due to the observation that in the context of building facade parsing, many objects like windows, shops and doors are all shown as deformed rectangles in images taken from different view perspectives. 2.4 Convex regularization この節では、ファサード解析の文脈において、窓、店、ドアなどの多くのオブジェクトが、異なる視点から撮影した画像の変形矩形として表示されるという観察から凸正規化を導入する。 0.72
The ground truth instance (e g , an individual window or door) segmentation masks over those objects therefore present general convex shapes. 基底的真理の例(例えば、個々の窓またはドア)は、それらのオブジェクトの上にセグメンテーションマスクを持ち、そのため一般的な凸形状を示す。
訳抜け防止モード: 基底真理のインスタンス(例えば、個々のウィンドウ) またはドア) これらのオブジェクト上のセグメンテーションマスクは、一般的な凸形を表示する。
0.69
However as we observe in Fig 5, the segmentation predictions from semantic segmentation networks like FCN [Long et al , 2015] are in non-convex irregular shapes for the two shops. しかし、図5に示すように、FCN(Long et al , 2015)のようなセグメンテーションネットワークからのセグメンテーション予測は、両店舗の非凸な形状である。 0.70
We therefore propose a convex regularization to improve the robustness of the network and allow the network to maximally extract information from a convex region. そこで本研究では,ネットワークのロバスト性を向上させるための凸正規化を提案し,凸領域から情報を最大に抽出する。 0.71
In each training iteration, (cid:88) 訓練の反復ごとに (cid:88) 0.53
i∈Ccls we additionally dynamically generate convex masks, called convex target, as the extra targets to guide the model training. I-Ccls さらに,モデルトレーニングを導くための追加目標として,凸対象と呼ばれる凸マスクを動的に生成する。 0.62
Specifically, given the set of pixels, denoted as Si, in which each pixel is predicted as the i-th class, and the ground truth segmentation labels, our convex target mask S∗ cvx,i is obtained by: 具体的には、各画素が第iクラスとして予測されるsiで表される画素の集合と、基底真理セグメンテーションラベルを与えられたとき、我々の凸対象マスクs∗ cvx,iは次の方法で得られる。 0.73
cls,i(cid:91) cls,i(cid:91) 0.46
N∗ (cid:18) n∗ (cid:18) 0.54
(cid:18) Γ (cid:18) Γ 0.41
Si (cid:92) Si (出典:92年) 0.47
k=1 (cid:19)(cid:19) k=1 である。 (cid:19)(cid:19) 0.34
S∗ cvx,i = S∗ cvx,i = 0.50
S∗ i,k , (5) S∗ i.k. , (5) 0.41
where N∗ cls,i is the number of ground truth instance mask of the i-th class; S∗ i,k is the k-th ground truth instance mask of the i-th class and Γ(·) is the convex hull of its set argument. N∗ cls,i は i-階クラスの基底真理のインスタンスマスクの数であり、S∗ i,k は i-階クラスの k-階基底真理のインスタンスマスクであり、s(·) はその集合引数の凸包である。
訳抜け防止モード: n∗ cls, i は i - th クラスの基底真理インスタンスマスクの数である。 s∗ i, k は i - th クラスの k - th ground truth instance mask である。 そして γ ( · ) はその集合論の凸包である。
0.79
The instance masks can be generated using connected components labeling. インスタンスマスクは接続されたコンポーネントラベリングを使って生成できる。 0.56
We then compute the convex regularizer as: 次に凸正規化子を次のように計算します。 0.45
Lcvx = 1 |Ccls| Lcvx = 1 |Ccls| 0.57
(cid:96)ce(S∗ (cid:96)ce(S∗) 0.40
cvx,i), cvx,i)であった。 0.59
(6) where Ccls is set of classes that have convex mask shapes, e g , windows, shops and doors, and (cid:96)ce(S) is the pixel-wise cross-entropy loss between predictions and labels restricted to the pixel set S. 2.5 Multi-task Learning Our proposed Facade R-CNN consists of two branches:3 segmentation branch and detection branch. (6) Cclsは凸マスクの形、例えば、ウィンドウ、ショップ、ドアを持つクラスのセットであり、(cid:96)ce(S)は、ピクセル集合 S.2.5マルチタスク学習 提案されたFacade R-CNNは2つのブランチ:3セグメンテーションブランチと検出ブランチで構成される。 0.54
We adopt the DeepLabV3 [Chen et al , 2017] as the base network for semantic parsing, while the detection head illustrated in Section 2.3 is used for generalized bbox refinement. 我々は,DeepLabV3[Chen et al , 2017] を意味解析の基盤ネットワークとして採用し,第2.3節で示される検出ヘッドを一般化されたbbox精錬に用いる。 0.77
L = Lsemantic + Lproposal + Ldetection + αLcvx, L = Lsemantic + Lproposal + Ldetection + αLcvx である。 0.90
In the training stage, the overall loss function is defined as: (7) where Lsemantic is the cross-entropy semantic segmentation loss, Lproposal is the RPN loss function defined in [Ren et al , 2015], and α is a pre-defined weight of the convex regularization. トレーニング段階では、全体の損失関数は次のように定義される: (7) Lsemantic はクロスエントロピーセマンティックセマンティックセグメンテーション損失、Lproposal は[Ren et al , 2015] で定義されるRPN損失関数、α は凸正規化の事前定義された重み。 0.82
A mask fusion strategy is critical for generating the refined facade parsing output. 洗練されたファサード解析出力を生成するにはマスク融合戦略が不可欠である。 0.69
One way is to directly perform union over the mask outputs from the semantic and detection branches. 1つの方法は、セマンティクスと検出ブランチからのマスク出力に対して直接結合を実行することである。 0.62
This however inevitably introduces unpredictable errors, as some generalized bboxes are inaccurate. しかし、これは必然的に予測不可能な誤りを引き起こす。 0.46
Thus we propose to apply a score threshold for the detected bboxes. そこで本研究では,検出したボックスにスコアしきい値を適用する。 0.61
As illustrated in Section 2.3, each output generalized bbox is associated with a classification score sk = max(tcls,k) ∈ [0, 1]. 第2.3節で示されるように、各出力一般化されたbboxは、分類スコア sk = max(tcls,k) ∈ [0, 1] に関連付けられる。 0.70
In the testing stage, after obtaining the generalized bbox and the semantic segmentation prediction, for the pixels in the overlapping region of these two outputs, the final fused semantic output for pixel j is generated as follows: テスト段階では、この2つの出力の重なり領域の画素について、一般化されたbboxおよびセマンティックセグメンテーション予測を得た後、画素jの最終的な融合意味出力を次のように生成する。 0.68
(cid:26)Dj, Sj, (出典:26)Dj sj。 0.58
Yj = sj > T, otherwise, Yj = sj > t でなければ 0.58
(8) where T is a pre-defined generalized bbox score threshold, Dj is the segmentation class predicted by the generalized bboxes at pixel j, and Sj is the segmentation class generated from the semantic branch at pixel j. (8) T が既定義の一般化 bbox スコア閾値である場合、Dj は pixel j における一般化 bbox によって予測されるセグメンテーションクラスであり、Sj は pixel j における意味分岐から生成されるセグメンテーションクラスである。 0.59
3See supplementary materials for more details. 3 詳細は補足資料を参照。 0.62
14x14x25628x28x256x4 7x7x256102428x28xNcl sclassbbox7x7x256102 4classbboxTL-BRbboxT R-BL10241024RoIRoI14 x14x256Mask R-CNNFacade R-CNNFaster R-CNN Ground truthConvex targetPrediction 14x14x25628x256x47x7 x2561024x28xNclsclas sbbox7x7x2561024clas sbboxTL-BRbboxTR-BL1 024RoIRoI14x14x256Ma sk R-CNNFacade R-CNNFaster R-CNN Ground truthConvex targetPrediction 0.10
英語(論文から抽出)日本語訳スコア
3 Oxford RobotCar Facade Dataset In this section, we briefly describe the characteristics of the dataset, Oxford RobotCar Facade. 3 Oxford RobotCar Facade Dataset この節では、データセットの特徴であるOxford RobotCar Facadeについて簡単に説明する。 0.83
We refer the readers to the supplementary material for more details of the new dataset. 読者は、新しいデータセットの詳細について補足資料を参照する。 0.65
Model FCN PSPNet V3 V3+ DFacade PALKN Ours モデル FCN PSPNet V3 V3+ DFacade PALKN Ours 0.61
mIoU 84.4 83.78 83.76 84.29 83.78 84.9 84.47 mIoU 84.4 83.78 83.76 84.29 83.78 84.9 84.47 0.23
ECP RueMonge ECP RueMonge 0.43
Oxford Acc. オックスフォード acc。 0.49
mIoU 93.31 72.85 70.93 93.17 73.28 93.4 72.96 93.35 93.54 71.12 73.42 93.56 93.78 74.34 mIoU 93.31 72.85 70.93 93.17 73.28 93.4 72.96 93.35 93.54 71.12 73.42 93.56 93.78 74.34 0.21
Acc. mIoU 88.18 45.12 48.87 87.24 51.3 88.29 50.33 88.09 87.33 47.31 51.22 88.4 88.67 53.8 acc。 mIoU 88.18 45.12 48.87 87.24 51.3 88.29 50.33 88.09 87.33 47.31 51.22 88.4 88.67 53.8 0.26
Acc. 93.99 94.05 94.38 94.57 94.49 94.61 94.67 acc。 93.99 94.05 94.38 94.57 94.49 94.61 94.67 0.26
Fig. 6: Dataset comparison. 図6:データセットの比較。 0.86
Left: existing building facade parsing datasets, where the inaccurate annotations are highlighted with boxes; right: our proposed dataset. 左: 既存のビルドファサード解析データセットで、不正確なアノテーションをボックスでハイライトします。 0.50
To the best of our knowledge, the Oxford RobotCar Facade dataset is the first driving environment facade dataset made publicly available. 私たちの知る限り、oxford robotcar facadeデータセットは、一般公開された最初の運転環境facadeデータセットです。 0.76
There are 500 images, each of size 1280 × 960 and high-quality 5-class annotations: window, door, balcony, shop, and facade. 画像サイズは1280×960で、窓、ドア、バルコニー、ショップ、ファサードといった高品質の5種類のアノテーションがある。 0.63
Some samples are shown in Fig. 6. いくつかのサンプルは図6に示されています。 0.65
The whole dataset is based on the large autonomous driving dataset Oxford Radar RobotCar dataset [Maddern et al., 2017], which is collected along a consistent route through Oxford, UK. データセット全体は、英国のオックスフォードを通る一貫したルートに沿って収集される、大規模な自動運転データセットOxford Radar RobotCarデータセット [Maddern et al., 2017]に基づいている。 0.78
As a comparison, many other existing facade datasets such as the RueMonge2014 [Riemenschneider et al , 2014] and ECP [Teboul, 2009] either have inaccurate annotations or less than 250 annotated images. 比較として、ruemonge2014 [riemenschneider et al , 2014] や ecp [teboul, 2009] のような既存のファサードデータセットは、不正確なアノテーションを持つか、250以下の注釈付き画像を持っている。 0.65
We list the features of Oxford RobotCar Facade dataset as follows. 以下に、Oxford RobotCar Facadeデータセットの特徴を列挙する。 0.77
Accurate annotations. 正確なアノテーション。 0.69
To ensure the quality of annotations, we manually label all classes based on the Labelme tool4, instead of using inaccurate pre-defined grammars to intuitively accelerate the labeling process. アノテーションの品質を保証するために、ラベル付けプロセスを直感的に加速するために、不正確な文法を使用する代わりに、 labelmeツール4に基づいてすべてのクラスを手動でラベル付けします。 0.57
Also, we carefully deal with the problem of occlusion, i.e., we specifically give different labels to distinguish the foreground objects (e g , vehicle and pedestrians) from background facades. また,前景物体(車両や歩行者など)と背景ファサードを区別するラベルを,特に異なるラベルに限定して,咬合の問題に慎重に対処している。 0.70
Diversity. The 500 images we selected consists of various buildings, such as churches, apartments, and office buildings, which largely increase the sample diversity. 多様性。 私たちが選んだ500枚の画像は、教会、アパート、オフィスビルなどの様々な建物で構成されており、サンプルの多様性を大きく増やしています。 0.65
In addition, since the scenes are captured on a consistent route, the same building facade would have different shapes from varying camera views. さらに、シーンは一貫したルートで撮影されるため、同じ建物のファサードはさまざまなカメラビューとは異なる形状になる。 0.77
Therefore, our dataset is more challenging, which can thus better reflect the generalization ability of parsing models. したがって、我々のデータセットはより困難であり、モデル解析の一般化能力をよりよく反映することができる。 0.67
Multi-task support. マルチタスクのサポート。 0.79
To build a comprehensive benchmark for building facade parsing, we provide not only semantic annotations, but also instance and panoptic annotations [Kirillov et al , 2019]. ファサード解析を構築するための包括的なベンチマークを構築するために、セマンティックアノテーションだけでなく、インスタンスやパノプティクスアノテーション(Kirillov et al , 2019)も提供します。 0.67
Specifically, we use the object-level class window for instance segmentation task, while the other 4 stufflevel classes facade, door, balcony, shop together with window are used in the panoptic segmentation task. 具体的には、オブジェクトレベルのクラスウィンドウをインスタンスセグメンテーションタスクに使用し、他の4つのインテグレードクラスファサード、ドア、バルコニー、ウィンドウとウィンドウがパン光学セグメンテーションタスクに使用される。 0.72
For a fair benchmark comparison, we split the whole dataset into training (400 images) and testing (100 images) subsets. 公正なベンチマーク比較のために、データセット全体をトレーニング(400イメージ)とテスト(100イメージ)サブセットに分割しました。 0.71
4See https://github.com/w kentaro/labelme 4See https://github.com/w kentaro/labelme 0.21
Table 2: Results on the three benchmark datasets. 表2: 3つのベンチマークデータセットの結果。 0.65
4 Experiments We evaluate our proposed approach and several baselines on three datasets, the ECP dataset [Teboul, 2009], the RueMonge2014 dataset [Riemenschneider et al , 2014], and our Oxford RobotCar Facade dataset. 4 実験では,提案手法とecpデータセット [teboul, 2009],ruemonge2014データセット [riemenschneider et al , 2014],oxford robotcar facadeデータセットの3つのデータセットのベースラインを評価した。 0.76
We select four general segmentation CNNs and two state-of-the-art building facade parsing networks as baseline models, including FCN [Long et al , 2015], PSPNet [Zhao et al , 2017], DeepLabV3 [Chen et al , 2017], DeepLabV3+ [Chen et al , 2018], DeepFacade [Liu et al , 2017], and Pyramid ALKNet [Ma et al , 2021] 4.1 Dataset and Training Configuration In all the experiments except those in Section 5, we use the loss function defined in (7) with α = 1/9 and the fusion strategy in (8) with T = 0.5. FCN [Long et al , 2015], PSPNet [Zhao et al , 2017], DeepLabV3 [Chen et al , 2017], DeepLabV3+ [Chen et al , 2018], DeepFacade [Liu et al , 2017], Pyramid ALKNet [Ma et al , 2021] 4.1 Dataset and Training Configuration 第5節を除くすべての実験では、(7) で α = 1/9 で定義された損失関数を使用し、(8) T = 0.5 での融合戦略を使用する。
訳抜け防止モード: 我々は4つの一般的なセグメンテーションCNNと2つの状態 - アートビルディングファサード解析ネットワークをベースラインモデルとして選択する。 FCN [Long et al, 2015 ], PSPNet [Zhao et al, 2017 ]を含む。 DeepLabV3 [ Chen et al, 2017 ], DeepLabV3 + [ Chen et al, 2018 ] DeepFacade [Liu et al, 2017 ] and Pyramid ALKNet [Ma et al, 2021 ] 4.1 Dataset 及び訓練構成 第5節を除くすべての実験 損失関数を α = 1/9 で (7 ) で定義します そして (8) における融合戦略は T = 0.5 である。
0.91
We refer the reader to the the supplementary material for more details of the datasets with specific settings and the training configurations. 我々は、特定の設定とトレーニング設定を備えたデータセットの詳細について、読者を補足資料を参照する。 0.66
4.2 Main Results The comparisons between our model and baselines on all datasets are shown in Table 2. 4.2 主な結果 我々のモデルとすべてのデータセットのベースラインの比較を表2に示す。 0.88
On the ECP dataset, though we obtain slightly lower mIoU compared with PALKN, we still surpass all the counterparts in accuracy. ECP データセットでは PALKN と比較して mIoU がわずかに低いが,精度ではすべての値を超えている。 0.79
On the RueMonge2014 dataset, we clearly observe that Facade R-CNN outperforms all the other models and obtain the highest scores, 74.34 in mIoU and 88.67 in accuracy. RueMonge2014データセットでは、Facade R-CNNが他のすべてのモデルより優れており、mIoUで74.34、精度で88.67という最高スコアが得られた。 0.61
Compared with DeepLabV3, our proposed model shows +1.06 and +0.38 respective improvements in the two metrics. DeepLabV3と比較すると,提案モデルでは2つの指標で+1.06と+0.38の改善が見られた。 0.56
Also, our model surpasses the previous state-of-the-art facade parsing network PALKN by +0.92 and +0.27. また,従来のファサード解析ネットワーク PALKN を +0.92 と +0.27 で上回っている。 0.64
Our proposed Oxford RobotCar Facade dataset is a challenging dataset, where the images are captured in noisy driving environments. 提案したOxford RobotCar Facadeデータセットは、ノイズの多い運転環境で画像をキャプチャする難しいデータセットである。 0.72
As shown in Table 2, Facade R-CNN outperforms all the baselines, and achieves the highest mIoU of 53.8 and the highest accuracy of 94.67. 表2に示すように、ファサードR-CNNは全てのベースラインを上回り、最高mIoUは53.8、最高精度は94.67である。 0.68
Compared with PALKN, Facade R-CNN shows improvements of +2.58 in mIoU. PALKNと比較すると、Facade R-CNNはmIoUで+2.58の改善を示した。 0.52
Meanwhile, our three proposed modules bring +2.5 gain over the base network DeepLabV3. 一方,提案する3つのモジュールは,ベースネットワークであるdeeplabv3に対して+2.5の利益をもたらす。 0.49
The comparison demonstrates that our model is better at dealing with challenging situations and has stronger robustness to the distortion caused by camera view change. 比較の結果,本モデルは課題の対処に優れ,カメラの視野変化による歪みに対して強い頑健性を有することが示された。 0.74
5 Ablation Study To better evaluate the proposed transconv module, generalized bounding box detection, and convex regularization, we 5 アブレーション研究 提案したtransconvモジュール, 一般化バウンディングボックス検出, 凸正則化をよりよく評価する。 0.79
RueMonge2014eTrimsCM PECPLabelmeFacadesem anticinstancepanopti csemanticinstancepan optic RueMonge2014eTrimsCM PECPLabelmeFacadesem anticinstancepanopti c 0.04
英語(論文から抽出)日本語訳スコア
Depth Shear Flip Rotate mIoU Accuracy 深さ せん断 フリップ回転mIoU精度 0.54
first layer + stage1 + stage2 + stage3 + stage4 第1層 stage1 + stage2 + stage3 + stage4 0.58
(cid:88) (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) 0.38
(cid:88) (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) 0.38
(cid:88) (cid:88) (cid:88) (cid:88) 0.39
70.37 70.61 70.45 70.47 71.02 70.79 70.41 69.66 69.73 67.58 70.37 70.61 70.45 70.47 71.02 70.79 70.41 69.66 69.73 67.58 0.21
87.5 87.51 87.64 87.48 87.57 87.52 87.75 87.41 87.28 86.53 87.5 87.51 87.64 87.48 87.57 87.52 87.75 87.41 87.28 86.53 0.21
Table 3: Comparisons of transformations on the RueMonge2014 dataset. 表3: RueMonge2014データセット上の変換の比較。 0.82
For the first conv layer, we replace the first 7×7 conv kernel; for later stages, we replace the middle 3×3 conv kernel in each residual block. 第1のconv層では、第1の7×7のconvカーネルを置き換え、第2の段階では、各残余ブロックの中央の3×3のconvカーネルを置き換えます。
訳抜け防止モード: 最初のconv層では、最初の7×7convカーネルを置き換える。 後段では、各ブロックの中間の3×3 convカーネルを置き換える。
0.75
conduct extensive ablation experiments. 広範囲のアブレーション実験を行う。 0.49
We individually add each module to the baseline DeepLabV3 to conduct experiments. それぞれのモジュールをベースラインのDeepLabV3に個別に追加して実験を行います。 0.72
For a fair comparison, we do not leverage data augmentation tricks in this section as they would introduce uncertainties in the conclusions. 公平な比較として、このセクションでは、結論の不確実性を導入するため、データ拡張のトリックを活用できません。 0.53
5.1 Transconv Module In this part, we first analyze the performance of different combinations of affine transformation in the first conv layer. 5.1 Transconv Module この部分では、最初に第1のconv層におけるアフィン変換の異なる組み合わせのパフォーマンスを分析する。 0.75
From Table 3, we observe that combining shearing and flipping together is the optimal strategy, which contributes +0.65 mIoU improvement to the baseline. 表3から、せん断と反転の組み合わせが最適戦略であり、ベースラインに+0.65 mIoUの改善をもたらすことを観察する。 0.77
Applying the transconv module on the first residual stage can also bring +0.25 gain in accuracy. 最初の残差段にtransconvモジュールを適用すると+0.25ゲインの精度が向上する。
訳抜け防止モード: トランスコンブモジュールを第1残像に応用する また、+0.25の精度も得られる。
0.75
However, when the transconv module is added into the succeeding deeper layers, it is not useful anymore, which is consistent with the illustration in Section 2.2 that the first few conv layers are more able in detecting basic geometry patterns. しかし、トランスコンブモジュールが後続の深層層に追加されると、もはや役に立たず、第2部2.2の図式と一致し、最初の数個のconv層が基本的な幾何学パターンを検出することができる。 0.67
5.2 Generalized Bounding Box Detection In Table 5, we first test different threshold T setting from 0 to 0.9 for mask fusion, where neither too high nor too low value can obtain significant gain. 5.2 一般化バウンディングボックス検出 表5では、マスク融合において0から0.9の異なるしきい値Tを最初にテストし、高値も低値も大きな利得を得ることができない。 0.76
By contrast, the optimal threshold 0.5 shows the optimal performance that increases mIoU by +0.39. 一方、最適閾値0.5は、mIoU+0.39の最適な性能を示す。 0.75
5.3 Convex regularization The convex regularizer serves as an extra loss for efficient network convergence. 5.3 凸正則化 凸正則化は効率的なネットワーク収束のための余分な損失となる。 0.65
We explore different weight settings for the convex regularizer as shown in Table 4. 表4に示すように、凸正則化器の異なる重み設定について検討する。 0.62
From Table 4, we observe the optimal weight value of 1/9 achieves the best result, which outperforms the baseline by +0.83 mIoU and +0.15 accuracy. 表4から1/9の最適重量値が最高値に達し、+0.83miouと+0.15の精度で基準値を上回る。 0.67
We also evaluate the performance when adding extra weight for convex classes, i.e., if we fix S∗ cvx,i = S∗ i,k instead of using (5), we do not get significant improvement. また、凸類に対して余分な重みを加える場合、すなわち、(5) を使わずに S∗ cvx,i = S∗ i,k を固定した場合、大きな改善は得られない。 0.70
We visualize the network convergence with convex regularization in Fig 7, which shows both accuracy and mIoU can converge faster than the baseline counterpart. ネットワーク収束を図7の凸正規化で視覚化し,mIoUとmIoUの両者がベースラインよりも高速に収束できることを示す。 0.78
5.4 Generalization After ablating the three proposed modules, we further inspect the generalization performance of our network. 5.4 一般化 3 つの提案モジュールを廃止した後,ネットワークの一般化性能をさらに検証する。 0.73
In this Weight Baseline 1/12 1/9 1/6 1/3 この中で 重量 ベースライン1/121/91/61/3 0.67
Accuracy Convex regularization mIoU 70.37 70.54 71.2 70.66 正確さ 凸正規化miou 70.37 70.54 71.2 70.66 0.46
87.5 87.44 87.65 87.57 87.19 87.5 87.44 87.65 87.57 87.19 0.22
70 Extra loss weight mIoU Accuracy 70 余剰損失重量mIoU精度 0.39
- 70.6 70.12 70.55 70.6 - 70.6 70.12 70.55 70.6 0.33
- 87.51 87.38 87.56 87.63 - 87.51 87.38 87.56 87.63 0.33
Table 4: Convex regularization performance under different weight settings on the RueMonge2014 dataset. 表4: RueMonge2014データセットの異なるウェイト設定下での凸正規化パフォーマンス。 0.74
Fig. 7: The network optimal performance with convex regularization. 第7図:凸正規化によるネットワーク最適性能 0.72
(a) mIoU vs. epoch; (a)みおうvs.エポック 0.47
(b) accuracy vs. epoch. (b)正確さ対エポック。 0.64
section, we use the combination of both the ECP and RueMonge2014 as the training dataset, while the Oxford RobotCar Facade is set as the testing dataset. セクションでは、トレーニングデータセットとしてECPとRueMonge2014の組み合わせを使用し、テストデータセットとしてOxford RobotCar Facadeを設定します。 0.81
As shown in Table 6, our Facade R-CNN outperforms all counterparts even further by at least +1.14 in mIoU and +2.06 in accuracy, which demonstrates that our model is more able to generalize parsing ability to more challenging datasets. 表6に示すように、私たちのFacade R-CNNは、少なくともmIoUで+1.14、+2.06の精度で、全てのモデルよりも優れています。 0.58
Threshold mIoU 70.37 Baseline 0.9 70.46 70.48 0.7 70.76 0.5 69.87 0.3 69.80 0.1 0 69.32 Threshold mIoU 70.37 Baseline 0.9 70.46 70.48 0.7 70.76 0.5 69.87 0.3 69.80 0.1 0 69.32 0.24
Acc. 87.50 87.53 87.50 87.60 87.42 87.30 86.99 acc。 87.50 87.53 87.50 87.60 87.42 87.30 86.99 0.26
Table 5: Comparison of the threshold settings for generalized bbox fusion on the RueMonge2014 dataset. 表5: RueMonge2014データセット上の一般化bbox融合のしきい値設定の比較。 0.85
Model mIoU FCN 22.91 V3 24.06 V3+ 23.20 PALKN 23.77 25.20 Ours モデルmIoU FCN 22.91 V3 24.06 V3+ 23.20 PALKN 23.77 25.20 Ours 0.58
Acc. 71.68 74.10 75.24 74.80 77.30 acc。 71.68 74.10 75.24 74.80 77.30 0.26
Table 6: Generalization performance. 表6: 一般化性能。 0.83
6 Conclusion In this paper, we investigate the problem of building facade parsing in realistic street-view scenes where building facade 6結論 本論文では, 建物ファサードのリアルなストリートビューシーンにおけるファサード解析の問題点について検討する。 0.68
0.550.590.630.670.71 0.751611162126mIoUEp ochConvex regularizationBaseli ne0.770.790.810.830. 850.870.891611162126 AccuracyEpochConvex regularizationBaseli ne 0.550.590.630.670.71 0.7516162126miouepoc hconvex regularizationbaseli ne0.770.790.810.830. 850.870.8916162126ac curacyepochconvex regularizationbaseli ne 0.07
(b) (a) (b) (a) 0.43
英語(論文から抽出)日本語訳スコア
images are from non-frontal perspectives. 画像は非正面的視点からのものである。 0.47
To achieve the goal, we propose the transconv module, generalized bbox detection, and convex regularization, all of which form the Facade R-CNN. 目的を達成するため、我々はTransconvモジュール、一般化されたbbox検出、凸正規化を提案し、これらは全てFacade R-CNNを形成する。 0.60
Extensive experiments are conducted to compare the our model with other baselines. 本モデルと他のベースラインとの比較実験を行った。 0.70
We demonstrate that the proposed Facade R-CNN achieve the state-of-the-art performance. 提案したFacade R-CNNが最先端の性能を実現することを示す。 0.51
To advance the application of building facade parsing in autonomous driving, we publish a new dataset Oxford RobotCar Facade, which has realistic street-view images and high-quality annotations. 自動運転におけるファサード解析の応用を進めるために,私たちは,現実的なストリートビュー画像と高品質なアノテーションを備えた新しいデータセットoxford robotcar facadeを公開する。 0.70
A Related Work In this section we brief more works that deal with the building facade parsing task from both the traditional and deep learning communities. 関連作業 このセクションでは、伝統的な学習コミュニティとディープラーニングコミュニティの両方から、建築ファサード解析タスクを扱う作業の詳細を説明します。 0.68
Traditional Building Facade Parsing. 伝統的な建築ファサード解析。 0.58
Traditional approaches tackle the problem of building facade parsing by focusing on hand-crafted prior knowledge. 伝統的なアプローチは、手作りの事前知識に着目してファサード解析を構築する問題に取り組む。 0.59
In [Zhao et al , 2010], buildings are parsed as individual facades. Zhao et al , 2010 では、建物は個別のファサードとして解析される。 0.60
Each facade is formatted as the combination of roof and floor, and a dynamic optimization is then applied. 各ファサードは屋根と床の組み合わせとしてフォーマットされ、動的最適化が適用される。 0.76
The work [Mathias, 2012] first splits the whole street-view buildings into facades. この作品[mathias, 2012]はまず、ストリートビューの建物全体をファサードに分割する。 0.67
Hand-crafted features are then extracted based on these facades, which are finally used for building style recognition. 手作りの特徴は、これらのファサードに基づいて抽出され、最終的に建築スタイル認識に使用される。 0.59
The reference [Teboul et al , 2011] formulates the problem as a hierarchical Markov decision process, where a binary split grammar is applied to parse and obtain the model optimal facade layout. 参照 [teboul et al , 2011] は問題を階層的マルコフ決定プロセスとして定式化し、二元分割文法を適用してモデル最適ファサードレイアウトを解析し取得する。 0.83
Deep Learning Segmentation. ディープラーニングのセグメンテーション。 0.49
CNNs have shown the powerful ability on vision-based tasks, including the classification, the object detection, and the semantic segmentation. cnnは、分類、オブジェクト検出、セマンティックセグメンテーションなど、視覚ベースのタスクにおいて強力な能力を示している。 0.68
Various CNN-based models are proposed to tackle computer vision problems. コンピュータビジョン問題に取り組むために様々なcnnベースのモデルが提案されている。 0.55
Fully Convolutional Network (FCN)[Long et al , 2015] is a milestone in image segmentation, which regards the semantic segmentation as a pixelIn [Ronneberger et al , 2015], Uwise classification task. Fully Convolutional Network (FCN)[Long et al , 2015]は画像セグメンテーションにおけるマイルストーンであり、セグメンテーションをピクセルIn [Ronneberger et al , 2015], Uwiseの分類タスクとみなしている。 0.79
Net is proposed mainly for medical image segmentation to capture more detailed representation. 医用画像のセグメンテーションにより、より詳細な表現を捉えることが主な目的である。 0.61
Unlike FCN that excludes information of the first several layers, U-Net integrates features from all convolutional (conv) layers by skip connections. 最初のいくつかのレイヤの情報を排除するfcnとは異なり、u-netは接続をスキップすることですべてのconvolutional(conv)層から機能を統合する。 0.54
The PSPNet [Zhao et al , 2017] introduces the pyramid pooling module which extracts features from multi-scales with multiple pooling operations, and the final prediction is generated based on the concatenated features. PSPNet[Zhao et al , 2017]では,複数のプール操作でマルチスケールから特徴を抽出するピラミッドプーリングモジュールを導入し,その結合した特徴に基づいて最終的な予測を生成する。 0.81
This module aggregates context information from a wider field, which demonstrates to be helpful to deal with scene parsing task. このモジュールは、より広いフィールドからコンテキスト情報を集約し、シーン解析タスクを扱うのに役立つことを示す。 0.81
The DeepLab series [Chen et al , 2017; Chen et al , 2018] enlarge the receptive field of conv layers by leveraging the dilated conv [Yu and Koltun, 2016]. DeepLabシリーズ[Chen et al , 2017; Chen et al , 2018]では,拡張されたconv(Yu and Koltun, 2016)を活用することで,conv層の受容領域を拡大している。 0.73
The dilated conv does not limit the kernel to have successive pixels anymore. 拡張されたconvは、カーネルが連続したピクセルを持つように制限しない。 0.55
By introducing the dilated rate, dilated conv enables pixels in the kernel to be far away from each another, without largely increasing the model parameters. 拡張率を導入することで、拡張されたconvは、モデルパラメータを大きく増やすことなく、カーネル内のピクセルを互いに遠く離れることができる。 0.57
Deep Learning Building Facade Parsing. ディープラーニングによるファサード解析。 0.43
The work [Schmitz and Mayer, 2016] is the pioneer that introduces CNN into the facade parsing task. この研究[Schmitz and Mayer, 2016]は、ファサード解析タスクにCNNを導入したパイオニアです。 0.61
It proposed a network that is based on AlexNet [Deng et al , 2009], where the encoding part consists of five conv layers while the decoding part これはAlexNet [Deng et al , 2009] に基づくネットワークを提案し、符号化部はデコード部で5つのconv層で構成されている。 0.85
consists of two conv layers and four fully-connected layers. 2つのconv層と4つの完全接続層からなる。 0.67
Deepfacade [Liu et al , 2017] first combines semantic segmentation and object detection together to obtain better building facade parsing result. Deepfacade [Liu et al , 2017] はまずセマンティックセグメンテーションとオブジェクト検出を組み合わせて、より優れた構築ファサード解析結果を得る。 0.82
It uses the rectangular bounding box (bbox) produced by Faster R-CNN to better regress the segmentation output. これは、Faster R-CNNが生成した長方形のバウンディングボックス(bbox)を使用して、セグメンテーション出力を向上する。 0.60
In addition, it utilizes a symmetry loss function that leverages the symmetric information of facade objects like windows. さらに、窓のようなファサードオブジェクトの対称情報を利用する対称性損失関数を利用する。 0.76
The work PALKN [Ma et al , 2021] follows the success of dilated conv. PALKN [Ma et al , 2021] は, 拡張コンブの成功に続く作品である。 0.76
It tackles the problem of occlusion and ambiguous of facades by introducing the atrous large kernel module (ALK module). これは、atrous large kernel module (alkモジュール)を導入することで、ファサードの閉塞と曖昧さの問題に対処している。 0.62
With the proposed ALK module, their network is able to recognize patterns in a wider field and make use of the regular structures of facades to aggregate useful non-local context information. 提案するALKモジュールにより,ネットワークはより広い分野のパターンを認識でき,ファサードの正規構造を利用して有用な非ローカルコンテキスト情報を集約することができる。 0.79
B Transconv Module Details Given the vanilla conv kernel G0, we first apply shearing to obtain the sheared grid. b transconv モジュールの詳細 バニラconv カーネル g0 を考えると、まずせん断格子を得るためにせん断法を適用する。 0.67
Then, the bilinear interpolation is applied to generate the neat grid which is the final sheared kernel Gshe,φ,m. 次に、双線型補間を適用して、最後のせん断されたカーネル Gshe,φ,m であるきれいな格子を生成する。
訳抜け防止モード: 次に、バイリニア補間を適用する 最終せん断カーネルgshe, φ,mであるきちんとしたグリッドを生成する。
0.71
An example is shown in Fig 8, where two sheared kernels Gshe,30◦,0 and Gshe,45◦,0 with shearing angles 30◦ and 45◦ along the y-axis are obtained from the vanilla kernel G0. 図8では、y軸に沿ってせん断角30 ,45 の2つのせん断核gshe,30 ,0 および gshe,45 ,0 が、バニラ核g0から得られる。 0.69
Fig. 8: Illustration for transforming the vanilla conv kernel to obtain the sheared conv kernel. 図8: バニラconvカーネルを変換してせん断convカーネルを得るための図示。 0.66
C Oxford RobotCar Facade Dataset To support the building facade parsing community, many facade datasets have been proposed during the last several years. C Oxford RobotCar Facade Dataset 建築ファサード解析コミュニティをサポートするために、過去数年間に多くのファサードデータセットが提案されている。 0.74
The RueMonge2014 [Riemenschneider et al , 2014] is a facade dataset collected along the Rue Monge street in Paris, which contains both 3D and 2D semantic annotations. ruemonge 2014 [riemenschneider et al , 2014]は、パリのrue monge通り沿いに収集されたファサードデータセットで、3dと2dの両方の意味アノテーションを含んでいる。
訳抜け防止モード: RueMonge2014 (Riemenschneider et al, 2014)は、パリのルージュ通りに沿って収集されたファサードデータセットである。 3Dおよび2Dセマンティックアノテーションを含む。
0.76
As the 2D semantic labels are generated based on the 3D building models, there exists some mismatching between labels and images as shown in Fig 6 in the paper. 2Dセマンティックラベルは3Dビルディングモデルに基づいて生成されるため、図6に示すようにラベルと画像のミスマッチが存在する。 0.71
The eTrims [Korˇc and Förstner., 2009] incorporates buildings in various environments with different views and provides highlyaccurate annotations. eTrims [Kor'c and Förstner, 2009] は様々な環境にさまざまなビューの建物を組み込んでおり、高度に正確なアノテーションを提供している。 0.58
However, this dataset only contains a total of 60 images, which is inadequate for model evaluation. しかし、このデータセットには、モデル評価に不適な合計60の画像しか含まれていない。 0.76
The CMP and the ECP datasets [Tyleek and Sára, 2013; Teboul, 2009] contain rectified building facades of 378 and 104 images respectively. cmp と ecp データセット [tyleek, sára, 2013; teboul, 2009] はそれぞれ 378 と 104 の正方形のファサードを含んでいる。 0.62
However, these two datasets both しかし この2つのデータセットは 0.77
1232343450.4223.581. 4234.582.4242.110241 35240Shear 30°along yShear 45°along yxyGshe,30°,0Gshe,45°,0Bilinear interpolateBilinear interpolateG01232343 45123234345 1232343450.4223.581. 4234.582.4242.110241 35240Shear 30°along yShear 45°along yxyGshe,30°,0Gshe,45°,0Bilinear interpolateBilinear interpolateG01232343 45123234345 0.13
英語(論文から抽出)日本語訳スコア
Class facade window クラスファサードウィンドウ 0.71
door balcony shop ドア バルコニー 店 0.69
Images no. 500 500 214 52 74 画像なし。 500 500 214 52 74 0.55
Pixels no. 14109k 1868k 151k 38k 34k Pixels No. 14109k 1868k 151k 38k 34k 0.75
Instances no. インスタンスはノー。 0.62
8820 - - Model 8820 - - モデル 0.52
RueMonge2014 mIoU Accuracy mIoU Accuracy 70.37 Baseline 70.61 Mask R-CNN Faster R-CNN 70.1 Facade R-CNN 70.76 RueMonge2014 mIoU Accuracy mIoU Accuracy 70.37 Baseline 70.61 Mask R-CNN Faster R-CNN 70.1 Facade R-CNN 70.76 0.31
51.8 52.89 52.25 52.97 51.8 52.89 52.25 52.97 0.23
94.41 94.57 94.36 94.6 94.41 94.57 94.36 94.6 0.23
87.5 87.55 87.2 87.6 87.5 87.55 87.2 87.6 0.23
Oxford Table 7: The statistics of the data samples in our dataset. オックスフォード 表7: データセット内のデータサンプルの統計。 0.69
intuitively regard the facade as axis-aligned rectangular layout, which inevitably leads to label-image mismatching, as shown in Fig 6 in the paper. 図6に示すように、ファサードを軸に並ぶ長方形レイアウトと直感的に考えると、必然的にラベル画像のミスマッチにつながる。 0.66
LabelmeFacade [Fröhlich et al , 2010] is a large facade dataset that collects 945 facade images in different views. LabelmeFacade [Fröhlich et al , 2010]は、異なるビューで945のファサード画像を収集する大規模なファサードデータセットである。 0.76
It has rich annotations for road-side objects, such as trees and vehicles. 木や車両などの道路側のオブジェクトに対する豊富なアノテーションがある。 0.75
Nevertheless, it does not provide facade object annotations in a unified level, i.e., they only annotate part of the windows and doors on the facade while leaving the rest unlabeled as shown in Fig 6 in the paper. にもかかわらず、ファサードオブジェクトアノテーションは統一されたレベルで提供されない、すなわち、ファサード上のウィンドウとドアの一部のみを注釈し、残りの部分は図6に示すようにラベル付けされていない。 0.72
This would cause misleading during training stage and finally affect the performance of parsing models. これはトレーニング段階で誤解を招き、最終的に解析モデルのパフォーマンスに影響する。 0.70
The more detailed visualization of our dataset is shown in Fig 9. データセットのより詳細な可視化は、図9に示します。 0.89
Fig. 9: The Oxford RobotCar Facade dataset. 図9:Oxford RobotCar Facadeのデータセット。 0.75
D Dataset and Training Configuration D.1 Dデータセットとトレーニング構成D.1 0.77
Dataset Configuration We introduce the datasets used in our experiments with the specific settings as follows. データセットの設定 実験で使用するデータセットを、以下の特定の設定で紹介します。 0.76
Table 8: Comparison of three R-CNNs under the threshold of 0.5 on the RueMonge2014 and the Oxford datasets, where all three models use the same fusion strategy described in Section 2.5. 表8:ruemonge2014とoxfordデータセットのしきい値0.5の3つのr-cnnの比較。
訳抜け防止モード: 表8:ruemonge2014とoxfordデータセットのしきい値0.5の3つのr-cnnの比較 3つのモデルは全て、第2.5条で記述された同じ核融合戦略を使用する。
0.68
ECP. The ECP dataset contains a total of 104 rectified images. ecpだ ecpデータセットは、合計104の補正画像を含む。 0.71
We use the improved annotations provided by Mathias et al [Mathias et al , 2016], where there are 8 classes: window, door, balcony, shop, facade, sky, roof, chimney. Mathias et al [Mathias et al , 2016]では,窓,ドア,バルコニー,ショップ,ファサード,空,屋根,煙突の8つのクラスが提供されている。 0.63
We preform five-fold cross validation on this dataset same as the paper [Ma et al , 2021] . このデータセット上で[ma et al , 2021]と同じ5倍のクロス検証をプリフォームする。 0.70
RueMonge2014. The RueMonge2014 dataset contains a total of 219 deformed images with segmentation annotations. 2014年。 RueMonge2014データセットには、セグメンテーションアノテーションを備えた合計219のデフォルメ画像が含まれている。 0.47
There are 7 classes: window, door, balcony, shop, facade, sky, roof. 窓、ドア、バルコニー、ショップ、ファサード、空、屋根の7つのクラスがある。 0.69
We split the whole dataset into train set, containing 113 images, and test set, containing 106 images , same as the paper [Ma et al , 2021] . 113枚の画像を含むデータセットと,[ma et al, 2021]と同じ106枚の画像を含むテストセットにデータセット全体を分割した。
訳抜け防止モード: データセット全体を113のイメージとテストセットを含むトレインセットに分割しました。 紙 [Ma et al, 2021 ] と同じ 106 枚の画像を含む。
0.78
Oxford RobotCar Facade. オックスフォード・ロボカー・ファサード所属。 0.42
The Oxford RobotCar Facade dataset contains a total of 500 deformed images. Oxford RobotCar Facadeデータセットには、合計500枚のデフォルメ画像が含まれている。 0.64
There are 5 classes: window, door, balcony, shop, facade. 窓、ドア、バルコニー、ショップ、ファサードの5つのクラスがある。 0.69
We use the given benchmark data split, where 400 images are set as the train set and 100 images are set as the test set. 与えられたベンチマークデータスプリットを使用して,400イメージをトレインセットとして設定し,100イメージをテストセットとして設定する。 0.74
D.2 Training Configuration D.2 トレーニング構成 0.67
We use Adam [Kingma and Ba, 2015] as the optimizer with learning rate 2e-4 and weight decay 1e-4. 学習率2e-4と体重減少1e-4の最適化にadam [kingma and ba, 2015]を用いる。 0.71
The data augmentation strategies we use include random color jittering, random horizontal flipping, and random scaling. データ拡張戦略には、ランダムカラージッタリング、ランダム水平反転、ランダムスケーリングなどがある。 0.69
We use the overall loss function defined in (7) with α = 1/9 and T = 0.5. α = 1/9 と T = 0.5 の合計損失関数を (7) で定義する。 0.85
We use the batch size of 4 and maximum input size of 1088×1088 during training. バッチサイズは4で,最大入力サイズは1088×1088である。 0.57
For the backbone, we select the ResNet-50 [He et al , 2016] that is already pretrained on the ImageNet dataset[Deng et al., 2009], which is the same as the setting applied in [Ma et al , 2021] and [Liu et al , 2017]. バックボーンについては、[Ma et al , 2021] と [Liu et al , 2017] に適用される設定と同じ ImageNet データセット [Deng et al., 2009] で事前トレーニング済みの ResNet-50 [He et al , 2016] を選択します。 0.77
Same as the setting in DeepLabV3[Chen et al , 2017], we remove the strides of the last two stages (stage 4 and stage 5). DeepLabV3[Chen et al , 2017]の設定と同じように、最後の2つのステージ(ステージ4とステージ5)の進行を削除します。 0.82
Thus, the output stride of the last feature map is 8, and this feature map is subsequently used for semantic segmentation using the vanilla DeepLabV3 segmentation classifier. 従って、最後のフィーチャーマップの出力ストライドは8であり、このフィーチャーマップはバニラDeepLabV3セグメンテーション分類器を使用してセグメンテーションに使用される。 0.76
As for the bbox detection, following Faster R-CNN[Ren et al , 2015], the feature maps from stage 2 and stage 5 followed by the Feature Pyramid Network[Lin et al , 2017] are extracted for the generalized bbox detection. ボックス検出については, より高速なR-CNN[Ren et al , 2015]に従って, ステージ2およびステージ5の特徴マップと特徴ピラミッドネットワーク[Lin et al , 2017]を抽出し, 一般化されたボックス検出を行う。 0.83
We implement the whole network structure on the Pytorch [Paszke et al , 2019] platform and use one RTX A5000 GPU as the training hardware. Pytorch [Paszke et al , 2019]プラットフォーム上でネットワーク構造全体を実装し、トレーニングハードウェアとしてRTX A5000 GPUを1つ使用しています。 0.80
ImageSemanticInstanc ePanoptic ImageSemanticInstanc ePanoptic 0.20
英語(論文から抽出)日本語訳スコア
Fig. 10: Illustration of rectification. Method Baseline Rectification 第10図:修正図。 方法 ベースラインの整流 0.52
mIoU Accuracy 70.37 69.01 奥羽精度70.37 69.01 0.43
87.5 87.26 87.5 87.26 0.25
Table 9: Performance of rectification. 表9: 修正のパフォーマンス。 0.71
E More Ablation Study E.1 E More Ablation Study E.1 0.44
Generalized Bounding Box Detection We compare our Facade R-CNN with Mask R-CNN and Faster R-CNN in terms of fusion performance, where all three R-CNNs use the same baseline segmentation output for fair refinement comparison. 一般化バウンディングボックス検出 ファサードR-CNNとMask R-CNNとFaster R-CNNを融合性能で比較する。
訳抜け防止モード: 一般化バウンディングボックス検出 ファサードR-CNNとマスクR-CNNの比較 核融合性能における高速なR-CNN 3つのR - CNNは同じベースラインセグメンテーション出力をフェアリファインメント比較に使用する。
0.81
From Table 8, we observe that Facade R-CNN outperforms the competitive counterpart Mask R-CNN by +0.15 mIoU and +0.05 accuracy on the RueMonge2014 dataset. 表8から、Facade R-CNNは競合するMask R-CNNを+0.15 mIoU、+0.05の精度で、RueMonge2014データセットで上回っている。 0.62
As for the Oxford dataset, we obtain comparable performance as Mask R-CNN, while using less than 1/30 Flops and 1/150 memory consumption as illustrated in Section 2.3. オックスフォードデータセットについては,第2部3節で示すように,1/30フロップ未満のメモリ使用量と1/150メモリ使用量を用いて,Mask R-CNNに匹敵する性能を得る。 0.60
E.2 Rectification Except for directly applying parsing models on the deformed facade images, one would also first rectify the facade and then parse the undistorted one as shown in Fig 10. E.2 変形したファサード画像に解析モデルを直接適用する以外は、まずファサードを修正し、次に図10に示すように、歪まないファサードを解析する。 0.63
In this section, we test the performance when this pre-processing technique is introduced. 本稿では,この前処理技術を導入する際の性能について述べる。 0.73
In Table 9, the rectification strategy is not able to bring improvement compared to the baseline. 表9では、整流戦略はベースラインと比較して改善をもたらすことができない。 0.73
F Visualization We report some of the parsing results in Fig 11, where the first two rows are for the Oxford RobotCar Facade dataset, the third row is for the RueMonge2014 dataset, and the last row is for the ECP dataset. fの可視化 第1行はoxford robotcar facadeデータセット、第3行はruemonge2014データセット、最後の行はecpデータセットである。
訳抜け防止モード: fの可視化 解析結果のいくつかをFig 11で報告します。 最初の2行はOxford RobotCar Facadeのデータセットです。 3行目はRueMonge2014データセットです。 そして最後の行はECPデータセットです。
0.62
As shown in Fig 11, our proposed generalized bbox is able to deal with the deformed facades and output the mask of the distorted objects, which could serve as a helpful module to refine the pure semantic segmentation output. 図11に示すように、提案する一般化されたbboxは、変形したファサードに対応でき、歪んだオブジェクトのマスクを出力することができる。
訳抜け防止モード: 図11に示すように、一般化されたbboxは変形したファサードを扱うことができる。 歪んだ物体のマスクを出力し 純粋なセマンティックセグメンテーション出力を洗練するための便利なモジュールとして機能する可能性がある。
0.69
References [Badrinarayanan et al , 2017] Vijay Badrinarayanan, Alex Kendall, and Roberto Cipolla. 参考文献 [Badrinarayanan et al , 2017] Vijay Badrinarayanan, Alex Kendall, Roberto Cipolla 0.38
Segnet: A deep convolutional encoder-decoder architecture for image segIEEE Trans. Segnet: Image segIEEE Trans用の深層畳み込みエンコーダデコーダアーキテクチャ。 0.81
Pattern Anal. Mach. パターンアナル。 マッハ 0.43
Intell. , mentation. インテリ。 メンテーション。 0.47
39(12):2481–2495, December 2017. 39(12)2481-2495, 2017年12月。 0.71
Fig. 11: Parsing visualization. 図11: パーシングの可視化。 0.78
[Chen et al , 2017] Liang-Chieh Chen, George Papandreou, Florian Schroff, and Hartwig Adam. [Chen et al , 2017] Liang-Chieh Chen、George Papandreou、Florian Schroff、Hartwig Adam。 0.39
Rethinking atrous In Proc. atrousをprocで再考する。 0.57
convolution for semantic image segmentation. 意味画像分割のための畳み込み 0.65
Conf. Comput. Conf Comput 0.25
Vis. Patt. Recognit. ビス パット 認識。 0.28
, pages 1–14, 2017. 2017年1-14頁。 0.66
[Chen et al , 2018] Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff, and Hartwig Adam. [Chen et al , 2018]Liang-Chieh Chen、Yukun Zhu、George Papandreou、Florian Schroff、Hartwig Adam。
訳抜け防止モード: [chen et al, 2018] liang - chieh chen, ユークン・ズー、ジョージ・パパンドレウ、フローリアン・シュロフ、ハートウィグ・アダム。
0.58
Encoder-decoder with atrous separable convolution for semantic image segmentation. 画像セグメンテーションのための可分分離畳み込みを伴うエンコーダデコーダ 0.71
In Proc. Eur. procで。 Eur! 0.41
Conf. Comput. Conf Comput 0.25
Vis. , pages 801–818, 2018. ビス 801-818頁、2018年。 0.43
[Cohen and Welling, 2016] Taco S. Cohen and Max Welling. Cohen and Welling, 2016]Taco S. CohenとMax Welling。 0.36
In Proc. Int. procで。 イント 0.43
Group equivariant convolutional networks. 群同変畳み込みネットワーク。 0.61
Conf. Mach. Learning, pages 1–10, 2016. Conf マッハ 2016年、第1-10頁。 0.34
[Deng et al , 2009] Jia Deng, Wei Dong, Richard Socher, LiJia Li, Kai Li, and Li Fei-Fei. [Deng et al , 2009]Jia Deng, Wei Dong, Richard Socher, LiJia Li, Kai Li, Li Fei-Fei 0.40
Imagenet: A large-scale hierarchical image database. Imagenet: 大規模な階層型イメージデータベース。 0.85
In Proc. Conf. procで。 Conf 0.36
Comput. Vis. Patt. Comput ビス パット 0.29
Recognit. , pages 248–255, 2009. 認識。 248-255頁、2009年。 0.42
[Femiani et al , 2018] J. Femiani, W. R. Para, N. Mitra, and P. Wonka. [Femiani et al , 2018]J. Femiani, W. R. Para, N. Mitra, P. Wonka。 0.48
Facade segmentation in the wild. 野生におけるファサードセグメンテーション。 0.60
arXiv preprint arXiv:1805.08634, 2018. arXiv preprint arXiv:1805.08634, 2018 0.40
[Fond et al , 2017] Antoine Fond, Marie-Odile Berger, and Gilles Simon. [Fond et al , 2017]Antoine Fond, Marie-Odile Berger, Gilles Simon。 0.43
Facade proposals for urban augmented reality. 都市拡張現実のためのファサード提案 0.71
In Proc. IEEE Int. procで。 IEEE Int。 0.43
Symp. Mixed Augm. シンプ。 混合オーグム。 0.56
Real. , pages 32–41, 2017. 本物だ 2017年、32-41頁。 0.53
[Fond et al , 2021] Antoine Fond, Marie-Odile Berger, and Gilles Simon. [Fond et al , 2021]Antoine Fond, Marie-Odile Berger, Gilles Simon] 0.41
Model-image registration of a building’s facade based on dense semantic segmentation. 密集した意味セグメンテーションに基づく建物のファサードのモデル画像登録。 0.71
Comput. Vis. Imag. Comput ビス イマジ。 0.34
Underst. , 206(1):1–12, May 2021. アンダースト。 206(1):1–12,2021年5月。 0.62
[Fröhlich et al , 2010] Björn Fröhlich, Erik Rodner, and Joachim Denzler. Fröhlich et al , 2010] Björn Fröhlich, Erik Rodner, Joachim Denzler 0.32
A fast approach for pixelwise labeling of facade images. ファサード画像の画素ラベル付けのための高速アプローチ 0.66
In Proc. Int. procで。 イント 0.43
Conf. Patt. Recognit. Conf パット 認識。 0.27
, pages 3029–3032, 2010. 2010年、3029-3032頁。 0.64
[Girshick, 2015] Ross Girshick. [Girshick, 2015]Ross Girshick氏。 0.45
Fast r-cnn. In Proc. 高速r-cnn。 procで。 0.38
Conf. Comput. Conf Comput 0.25
Vis. Patt. Recognit. ビス パット 認識。 0.28
, pages 1440–1448, 2015. 1440-1448頁、2015年。 0.64
ImageRectified imageNetworkSegmenta tion outputTransformedout putImageGeneralisedb boxSegmentationFused segmentationGround truth ImageRectified ImageNetworkSegmenta tion outputTransformedout put Image GeneralizedbboxSegme ntationFusedsegmenta tionGround truth 0.09
英語(論文から抽出)日本語訳スコア
[He et al , 2016] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. [he et al, 2016] kaiming he, xiangyu zhang, shaoqing ren, jian sun。 0.33
Deep residual learning for image recognition. 画像認識のための深い残差学習 0.81
In Proc. Conf. procで。 Conf 0.36
Comput. Vis. Patt. Comput ビス パット 0.29
Recognit. , pages 770–778, 2016. 認識。 770-778頁、2016年。 0.44
[Jaderberg et al , 2015] Max Jaderberg, Karen Simonyan, Andrew Zisserman, et al Spatial transformer networks. Jaderberg et al , 2015] Max Jaderberg, Karen Simonyan, Andrew Zisserman, et al Space Transformer Network。 0.38
In Proc. Adv. procで。 adv。 0.47
Neural Inf. Process. 神経障害。 プロセス。 0.62
Syst. , pages 2017–2025, 2015. シスト。 2015年、2017-2025頁。 0.63
[Kingma and Ba, 2015] Diederik P Kingma and Jimmy Ba. [Kingma and Ba, 2015]Diederik P KingmaとJimmy Ba。 0.40
Adam: A method for stochastic optimization. Adam: 確率最適化の方法です。 0.69
In Proc. Int. procで。 イント 0.43
Conf. Learn. Representations, pages 1–15, 2015. Conf 学ぶ。 2015年1-15頁。 0.50
[Kirillov et al , 2019] Alexander Kirillov, Kaiming He, Ross Girshick, Carsten Rother, and Piotr Dollar. Kirillov et al , 2019) Alexander Kirillov, Kaiming He, Ross Girshick, Carsten Rother, Piotr Dollar。 0.36
Panoptic segIn Proc. panoptic segin proc の略。 0.41
Conf. Comput. Conf Comput 0.25
Vis. Patt. Recognit. ビス パット 認識。 0.28
, mentation. pages 9404–9413, 2019. メンテーション。 2019年、9404-9413頁。 0.51
[Korˇc and Förstner., 2009] F. Korˇc and W. Förstner. F・K・F・F・フォストナー(2009年) 0.43
etrims image database for interpreting images of man-made scenes. 人造シーンの画像を解釈するための画像データベース。 0.79
Technical Report TR-IGG-P-2009-01, University of Bonn, Dept. of Photogrammetry, 2009. 技術報告 TR-IGG-P-2009-01, Bonn, Dept. of Photogrammetry, 2009 0.39
[Krizhevsky et al , 2012] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. [krizhevsky et al , 2012]alex krizhevsky, ilya sutskever, geoffrey e hinton。 0.34
Imagenet classification with deep convolutional neural networks. 深部畳み込みニューラルネットワークを用いた画像ネット分類 0.83
In Proc. Adv. procで。 adv。 0.47
Neural Inf. Process. 神経障害。 プロセス。 0.62
Syst. , pages 1–9, 2012. シスト。 2012年1-9頁。 0.62
[Lin et al , 2017] Tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. [Lin et al , 2017] Tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, Bharath Hariharan, Serge Belongie]
訳抜け防止モード: [Lin et al, 2017 ]tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, Bharath Hariharan セルゲイ・ベロンティー(Serge Belongie)。
0.87
Feature pyramid networks for object detection. 物体検出のための特徴ピラミッドネットワーク 0.81
In Proc. Conf. procで。 Conf 0.36
Comput. Vis. Patt. Comput ビス パット 0.29
Recognit. , pages 2117–2125, 2017. 認識。 2117-2125頁、2017年。 0.42
[Liu et al , 2017] Hantang Liu, Jialiang Zhang, Jianke Zhu, and Steven C. H. Hoi. [Liu et al , 2017]Hantang Liu, Jialiang Zhang, Jianke Zhu, Steven C. H. Hoi 0.41
Deepfacade: A deep learning approach to facade parsing. deepfacade: facadeパースに対するディープラーニングアプローチ。 0.70
In Proc. Int. procで。 イント 0.43
Joint Conf. Artif. 合同会議。 アーティフ 0.48
Intell. , pages 2301–2307, 2017. インテリ。 2301-2307頁、2017年。 0.55
[Long et al , 2015] Jonathan Long, Evan Shelhamer, and Trevor Darrell. ジョナサン・ロング(Jonathan Long)、エヴァン・シェルハマー(Evan Shelhamer)、トレバー・ダレル(Trevor Darrell)。 0.58
Fully convolutional networks for semantic segmentation. 意味セグメンテーションのための完全畳み込みネットワーク。 0.65
In Proc. Conf. procで。 Conf 0.36
Comput. Vis. Patt. Comput ビス パット 0.29
Recognit. , pages 3431–3440, 2015. 認識。 2015年、3431-3440頁。 0.45
[Ma et al , 2021] Wenguang Ma, Wei Ma, Shibiao Xu, and Hongbin Zha. [Ma et al ,2021]ウェンガン・マ、ワイ・マ、シービオ・ク、ホンビン・ザ。 0.47
Pyramid alknet for semantic parsing of building facade image. 建築ファサード画像の意味解析のためのピラミッドアルクネット 0.54
IEEE Geosci. IEEE Geosci所属。 0.85
Remote Sens. Lett. リモートセン。 レッツ。 0.45
, 18(6):1009–1013, June 2021. 出典:18(6):1009-1013, june 2021。 0.69
[Maddern et al , 2017] Will Maddern, Geoff Pascoe, Chris Linegar, and Paul Newman. Maddern et al , 2017] Will Maddern、Geoff Pascoe、Chris Linegar、Paul Newman。 0.33
1 Year, 1000km: The Oxford RobotCar Dataset. 1年、1000km:oxford robotcarデータセット。 0.75
Int. J. Robotics Res., 36(1):3–15, January 2017. イント j. robotics res., 36(1):3–15, 2017年1月。 0.58
[Mathias et al , 2016] M. Mathias, A. Martinovic, and Van Gool. (Mathias et al , 2016)M. Mathias, A. Martinovic, Van Gool. 0.38
Atlas: A three-layered approach to facade parsing. Atlas: ファサード解析のための3層アプローチ。 0.77
Int. J. Comput. イント j・コンプット。 0.43
Vis. , 118(1):22–48, May 2016. ビス 118(1):22-48, 2016年5月。 0.31
[Mathias, 2012] M. Mathias. [Mathias, 2012]M. Mathias. 0.47
Automatic architectural style recognition. アーキテクチャスタイルの自動認識。 0.77
Int. Arch. Photo. イント アーチ 写真。 0.49
Remote Sens. Spatial Info. リモートセンシング 空間情報 0.43
Sci. , 16(5):171–176, March 2012. Sci 16(5):171-176, March 2012。 0.58
[Paszke et al , 2019] Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, et al Pytorch: An imperative style, highperformance deep learning library. Paszke et al , 2019] Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, et al Pytorch: 命令型スタイルで高性能なディープラーニングライブラリ。 0.82
pages 8026–8037, 2019. 8026-8037、2019年。 0.54
[Ren et al , 2015] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. [Ren et al , 2015]Shaoqing Ren、Kaming He、Ross Girshick、Jian Sun。 0.36
Faster r-cnn: Towards real-time object detection with region proposal networks. Faster r-cnn: リージョン提案ネットワークによるリアルタイムオブジェクト検出を目指す。 0.69
pages 91–99, 2015. 2015年、91-99頁。 0.59
[Riemenschneider et al , 2014] Hayko [Riemenschneider et al , 2014]Hayko 0.40
Riemenschneider, András Bódis-Szomorú, Julien Weissenberg, and Luc Van Gool. Riemenschneider、András Bódis-Szomorú、Julien Weissenberg、Luc Van Gool。 0.39
Learning where to classify in multi-view In Proc. procでマルチビューで分類する場所を学ぶ。 0.65
Eur. Conf. Comput. Eur! Conf Comput 0.28
semantic segmentation. セマンティクスのセグメンテーション。 0.58
Vision, pages 516–532, 2014. 516-532頁、2014年。 0.49
[Ronneberger et al , 2015] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. Ronneberger et al , 2015] Olaf Ronneberger氏、Philipp Fischer氏、Thomas Brox氏。 0.41
U-net: Convolutional networks In Proc. U-net: Proc.の畳み込みネットワーク。 0.70
Int. Conf. for biomedical image segmentation. イント Conf バイオメディカル画像のセグメンテーションです 0.46
Med. Imag. Comput. 薬だ イマジ。 Comput 0.42
Comput. Interv. Comput インターv 0.42
, pages 234–241, 2015. 2015年、234-241頁。 0.73
[Schmitz and Mayer, 2016] Matthias Schmitz and Helmut Mayer. Schmitz and Mayer, 2016] Matthias SchmitzとHelmut Mayer。 0.36
A convolutional network for semantic facade segmentation and interpretation. 意味的なファサード分割と解釈のための畳み込みネットワーク。 0.67
Int. Arch. Phot. イント アーチ Phot 0.34
Remote Sens. Spat. リモートセンシング。 0.42
Info. Sci. , 41(1):709, June 2016. 情報。 Sci 背番号41(1):709, 2016年6月。 0.53
[Schops et al , 2017] Thomas Schops, Torsten Sattler, Christian Hane, and Marc Pollefeys. (Schops et al , 2017)Thomas Schops、Torsten Sattler、Christian Hane、Marc Pollefeys。 0.34
Large-scale outdoor 3d reconstruction on a mobile device. モバイルデバイスによる大規模屋外3次元再構築 0.76
Comput. Vision Imag. Comput ビジョンImag。 0.48
Unders. , 157(4):151–166, April 2017. アンダース 157(4):151–166, April 2017。 0.36
[Teboul et al , 2011] O. Teboul, I. Kokkinos, Loc Simon, P. Koutsourakis, and N. Paragios. [Teboul et al , 2011]O. Teboul, I. Kokkinos, Loc Simon, P. Koutsourakis, N. Paragios。 0.46
Shape grammar parsIn Proc. 図形文法のパース Proc。 0.69
Conf. Comput. Conf Comput 0.25
ing via reinforcement learning. 強化学習によるing。 0.79
Vis. Patt. Recognit. ビス パット 認識。 0.28
, pages 2273–2280, 2011. 2011年、2273-2280頁。 0.64
[Teboul, 2009] Olivier Teboul. [Teboul, 2009]Olivier Teboul。 0.38
Ecole centrale paris facades Ecole Centrale paris facades 0.41
database, 2009. データベース、2009年。 0.69
Accessed: Oct. 1, 2021. アクセス:2021年10月1日。 0.59
[Tyleek and Sára, 2013] Radim Tyleek and Radi Sára. (Tyleek and Sára, 2013)Radim TyleekとRadi Sára。 0.34
Spatial pattern templates for recognition of objects with regIn Proc. regIn Procによるオブジェクト認識のための空間パターンテンプレート。 0.88
Patt. Recognit. , pages 364–374, ular structure. パット 認識。 364-374頁。 0.23
2013. [Wu et al , 2014] Bin Wu, Xian Sun, Qichang Wu, Menglong Yan, Hongqi Wang, and Kun Fu. 2013. [Wu et al , 2014]Bin Wu, Xian Sun, Qichang Wu, Menglong Yan, Hongqi Wang, Kun Fu。 0.41
Building reconstruction from high-resolution multiview aerial imagery. 高分解能多視点空中画像による建物再建 0.71
IEEE Geosci. IEEE Geosci所属。 0.85
Remote Sens. Lett. リモートセン。 レッツ。 0.45
, 12(4):855–859, November 2014. 背番号12(4):855–859, 2014年11月。 0.59
[Yang and Förstner, 2011] M. Y. Yang and W Förstner. [Yang and Förstner, 2011]M.Y. YangとW Förstner。 0.45
Regionwise classification of building facade images. 建物ファサード画像の地域別分類 0.69
In Proc. Conf. procで。 Conf 0.36
Photo. Imag. Anal. 写真。 イマジ。 アナル 0.53
, pages 209–220, 2011. 2011年、209-220頁。 0.69
[Yu and Koltun, 2016] Fisher Yu and Vladlen Koltun. [Yu and Koltun, 2016]Fisher YuとVladlen Koltun。 0.37
Multiscale context aggregation by dilated convolutions. 拡張畳み込みによるマルチスケールコンテキストアグリゲーション 0.41
In Proc. Int. procで。 イント 0.43
Conf. Learn. Representations, pages 1–13, 2016. Conf 学ぶ。 表紙は2016年1-13頁。 0.50
[Zhao et al , 2010] Peng Zhao, Tian Fang, Jianxiong Xiao, Honghui Zhang, Qinping Zhao, and Long Quan. [Zhao et al , 2010]Peng Zhao、Tian Fang、Jianxiong Xiao、Honghui Zhang、Qinping Zhao、Long Quan。 0.37
Rectilinear parsing of architecture in urban environment. 都市環境における建築の線形解析 0.69
In Proc. Conf. procで。 Conf 0.36
Comput. Vis. Patt. Comput ビス パット 0.29
Recognit. , pages 342–349, 2010. 認識。 2010年、342-349頁。 0.47
[Zhao et al , 2017] Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, and Jiaya Jia. [Zhao et al , 2017]Hongshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, Jiaya Jia。 0.37
Pyramid scene parsing network. ピラミッドシーン解析ネットワーク。 0.60
In Proc. Conf. procで。 Conf 0.36
Comput. Vis. Patt. Comput ビス パット 0.29
Recognit. , pages 2881–2890, 2017. 認識。 2017年、2881-2890頁。 0.43
                     ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。