Fugu-MT 論文翻訳(概要): Window Detection In Facade Imagery: A Deep Learning Approach Using Mask R-CNN

論文の概要: Window Detection In Facade Imagery: A Deep Learning Approach Using Mask R-CNN

arxiv url: http://arxiv.org/abs/2107.10006v1
Date: Wed, 21 Jul 2021 11:00:01 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-22 19:35:14.688523
Title: Window Detection In Facade Imagery: A Deep Learning Approach Using Mask R-CNN
Title（参考訳）: ファサード画像におけるウィンドウ検出:Mask R-CNNを用いた深層学習手法
Authors: Nils Nordmark and Mola Ayenew
Abstract要約: 本稿では、ファサード画像入力のウィンドウ検出に使用するマスクR-CNNフレームワークについて検討する。我々は、ファサードのストリートビュー画像の収集したデータセットを用いて、トランスファーラーニングを利用して、COCO重みに関する提案手法を訓練する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The parsing of windows in building facades is a long-desired but challenging task in computer vision. It is crucial to urban analysis, semantic reconstruction, lifecycle analysis, digital twins, and scene parsing amongst other building-related tasks that require high-quality semantic data. This article investigates the usage of the mask R-CNN framework to be used for window detection of facade imagery input. We utilize transfer learning to train our proposed method on COCO weights with our own collected dataset of street view images of facades to produce instance segmentations of our new window class. Experimental results show that our suggested approach with a relatively small dataset trains the network only with transfer learning and augmentation achieves results on par with prior state-of-the-art window detection approaches, even without post-optimization techniques.
Abstract（参考訳）: ファサード建築における窓のパーシングは、コンピュータビジョンにおいて長年望まれてきたが難しい課題である。都市分析、セマンティック再構築、ライフサイクル分析、デジタル双生児、および高品質なセマンティックデータを必要とする他の建物関連タスクのシーン解析に不可欠である。本稿では、ファサード画像入力のウィンドウ検出に使用するマスクR-CNNフレームワークについて検討する。我々はトランスファーラーニングを利用してCOCO重みに関する提案手法を、ファサードのストリートビュー画像の収集データセットを用いて学習し、新しいウィンドウクラスのインスタンスセグメンテーションを作成する。実験の結果, 比較的小さなデータセットを用いた提案手法は, 移動学習と拡張のみでネットワークを訓練し, 従来の最先端ウィンドウ検出手法と同等の結果が得られることがわかった。

関連論文リスト

Beyond Single Images: Retrieval Self-Augmented Unsupervised Camouflaged Object Detection [18.382178646073474]
RISEは、トレーニングデータセット全体を利用して、単一画像のための擬似ラベルを生成するパラダイムである。アノテーションを使わずにトレーニング画像のみを使用することは、高品質なプロトタイプライブラリ構築において顕著な課題である、と認識することが重要である。 KNN検索の段階では,特徴マップにおけるアーティファクトの影響を軽減するために,マルチビューKNN検索を提案する。
論文参考訳（メタデータ） (2025-10-21T09:12:26Z)
Multi-scale Semantic Prior Features Guided Deep Neural Network for Urban Street-view Image [1.4473649585131072]
本稿では,ストリートビュー画像の描画のための新しいディープニューラルネットワーク(DNN)を提案する。大規模な事前学習モデルからリッチなセマンティックプリプロンプトを学習するためにセマンティックプリプロンプトが導入された。 ApolloscapesとCityscapesデータセットの実験は、最先端の方法よりも優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-05-17T03:02:18Z)
Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。 FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文参考訳（メタデータ） (2024-03-26T06:04:50Z)
Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文参考訳（メタデータ） (2024-03-23T22:32:06Z)
Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
インコンテキストセグメンテーションは、与えられた参照画像を使ってオブジェクトをセグメンテーションすることを目的としている。既存のほとんどのアプローチでは、視覚的プロンプトと入力画像クエリの相関を構築するために、メトリックラーニングやマスク付きイメージモデリングを採用しています。この研究は、新しい視点から問題にアプローチし、コンテキスト内セグメンテーションのための潜在拡散モデルの能力を解き放つ。
論文参考訳（メタデータ） (2024-03-14T17:52:31Z)
Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文参考訳（メタデータ） (2023-08-04T10:28:48Z)
Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文参考訳（メタデータ） (2021-10-29T16:51:16Z)
Exploiting the relationship between visual and textual features in social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文参考訳（メタデータ） (2021-07-08T10:54:59Z)
Descriptive Modeling of Textiles using FE Simulations and Deep Learning [0.0]
織物の糸の幾何学的特徴を抽出する新しい完全自動化手法を提案する。提案手法は、2つのディープニューラルネットワークアーキテクチャ(U-NetとMask RCNN)を用いる。実験の結果,CT画像上で糸のインスタンスセグメンテーションを行う上で,本手法は正確かつ堅牢であることがわかった。
論文参考訳（メタデータ） (2021-06-26T09:32:24Z)
Learning Visual Representations for Transfer Learning by Suppressing Texture [38.901410057407766]
自己教師付き学習では、低レベルのキューとしてのテクスチャは、ネットワークがより高いレベルの表現を学習することを防ぐショートカットを提供する。本稿では,異方性拡散に基づく古典的手法を用いて,テクスチャを抑圧した画像を用いた強化訓練を提案する。提案手法は,物体検出と画像分類における最先端の成果を実証的に示す。
論文参考訳（メタデータ） (2020-11-03T18:27:03Z)
Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文参考訳（メタデータ） (2020-04-01T12:56:13Z)
DeepEMD: Differentiable Earth Mover's Distance for Few-Shot Learning [122.51237307910878]
我々は,画像領域間の最適なマッチングの新しい視点から,少数ショット画像分類法を開発した。我々は、高密度画像表現間の構造距離を計算するために、Earth Mover's Distance (EMD) を用いている。定式化において重要な要素の重みを生成するために,我々は相互参照機構を設計する。
論文参考訳（メタデータ） (2020-03-15T08:13:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。