論文の概要: Window Detection In Facade Imagery: A Deep Learning Approach Using Mask
R-CNN
- arxiv url: http://arxiv.org/abs/2107.10006v1
- Date: Wed, 21 Jul 2021 11:00:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-22 19:35:14.688523
- Title: Window Detection In Facade Imagery: A Deep Learning Approach Using Mask
R-CNN
- Title(参考訳): ファサード画像におけるウィンドウ検出:Mask R-CNNを用いた深層学習手法
- Authors: Nils Nordmark and Mola Ayenew
- Abstract要約: 本稿では、ファサード画像入力のウィンドウ検出に使用するマスクR-CNNフレームワークについて検討する。
我々は、ファサードのストリートビュー画像の収集したデータセットを用いて、トランスファーラーニングを利用して、COCO重みに関する提案手法を訓練する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The parsing of windows in building facades is a long-desired but challenging
task in computer vision. It is crucial to urban analysis, semantic
reconstruction, lifecycle analysis, digital twins, and scene parsing amongst
other building-related tasks that require high-quality semantic data. This
article investigates the usage of the mask R-CNN framework to be used for
window detection of facade imagery input. We utilize transfer learning to train
our proposed method on COCO weights with our own collected dataset of street
view images of facades to produce instance segmentations of our new window
class. Experimental results show that our suggested approach with a relatively
small dataset trains the network only with transfer learning and augmentation
achieves results on par with prior state-of-the-art window detection
approaches, even without post-optimization techniques.
- Abstract(参考訳): ファサード建築における窓のパーシングは、コンピュータビジョンにおいて長年望まれてきたが難しい課題である。
都市分析、セマンティック再構築、ライフサイクル分析、デジタル双生児、および高品質なセマンティックデータを必要とする他の建物関連タスクのシーン解析に不可欠である。
本稿では、ファサード画像入力のウィンドウ検出に使用するマスクR-CNNフレームワークについて検討する。
我々はトランスファーラーニングを利用してCOCO重みに関する提案手法を、ファサードのストリートビュー画像の収集データセットを用いて学習し、新しいウィンドウクラスのインスタンスセグメンテーションを作成する。
実験の結果, 比較的小さなデータセットを用いた提案手法は, 移動学習と拡張のみでネットワークを訓練し, 従来の最先端ウィンドウ検出手法と同等の結果が得られることがわかった。
関連論文リスト
- Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Semantic decoupled representation learning for remote sensing image
change detection [17.548248093344576]
RS画像CDのセマンティックデカップリング表現学習を提案する。
我々は、セマンティックマスクを利用して、異なるセマンティック領域の表現をアンタングルする。
さらに、下流CDタスクにおける関心対象の認識に役立ち、異なる意味表現を区別するようモデルに強制する。
論文 参考訳(メタデータ) (2022-01-15T07:35:26Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z) - Descriptive Modeling of Textiles using FE Simulations and Deep Learning [0.0]
織物の糸の幾何学的特徴を抽出する新しい完全自動化手法を提案する。
提案手法は、2つのディープニューラルネットワークアーキテクチャ(U-NetとMask RCNN)を用いる。
実験の結果,CT画像上で糸のインスタンスセグメンテーションを行う上で,本手法は正確かつ堅牢であることがわかった。
論文 参考訳(メタデータ) (2021-06-26T09:32:24Z) - Learning Visual Representations for Transfer Learning by Suppressing
Texture [38.901410057407766]
自己教師付き学習では、低レベルのキューとしてのテクスチャは、ネットワークがより高いレベルの表現を学習することを防ぐショートカットを提供する。
本稿では,異方性拡散に基づく古典的手法を用いて,テクスチャを抑圧した画像を用いた強化訓練を提案する。
提案手法は,物体検出と画像分類における最先端の成果を実証的に示す。
論文 参考訳(メタデータ) (2020-11-03T18:27:03Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z) - DeepEMD: Differentiable Earth Mover's Distance for Few-Shot Learning [122.51237307910878]
我々は,画像領域間の最適なマッチングの新しい視点から,少数ショット画像分類法を開発した。
我々は、高密度画像表現間の構造距離を計算するために、Earth Mover's Distance (EMD) を用いている。
定式化において重要な要素の重みを生成するために,我々は相互参照機構を設計する。
論文 参考訳(メタデータ) (2020-03-15T08:13:16Z) - GridMask Data Augmentation [76.79300104795966]
本稿では,新しいデータ拡張手法であるGridMaskを提案する。
情報除去を利用して、様々なコンピュータビジョンタスクで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T07:27:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。