論文の概要: BFA-YOLO: A balanced multiscale object detection network for building façade attachments detection
- arxiv url: http://arxiv.org/abs/2409.04025v2
- Date: Mon, 11 Nov 2024 06:23:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:05:44.757684
- Title: BFA-YOLO: A balanced multiscale object detection network for building façade attachments detection
- Title(参考訳): BFA-YOLO:ファサードアタッチメント検出のためのバランスの取れたマルチスケール物体検出ネットワーク
- Authors: Yangguang Chen, Tong Wang, Guanzhou Chen, Kun Zhu, Xiaoliang Tan, Jiaqi Wang, Wenchao Guo, Qing Wang, Xiaolong Luo, Xiaodong Zhang,
- Abstract要約: 本研究では,BFA-YOLOモデルとBFA-3Dデータセットを開発した。
BFA-YOLOモデルは、ファサードアタッチメントのマルチビュー画像の分析に特化して設計された高度なアーキテクチャである。
BFA-YOLOは、BFA-3DデータセットとパブリックなFacade-WHUデータセットにおいて、mAP$_50$で1.8%と2.9%の改善を示した。
- 参考スコア(独自算出の注目度): 24.100350794625882
- License:
- Abstract: The detection of fa\c{c}ade elements on buildings, such as doors, windows, balconies, air conditioning units, billboards, and glass curtain walls, is a critical step in automating the creation of Building Information Modeling (BIM). Yet, this field faces significant challenges, including the uneven distribution of fa\c{c}ade elements, the presence of small objects, and substantial background noise, which hamper detection accuracy. To address these issues, we develop the BFA-YOLO model and the BFA-3D dataset in this study. The BFA-YOLO model is an advanced architecture designed specifically for analyzing multi-view images of fa\c{c}ade attachments. It integrates three novel components: the Feature Balanced Spindle Module (FBSM) that tackles the issue of uneven object distribution; the Target Dynamic Alignment Task Detection Head (TDATH) that enhances the detection of small objects; and the Position Memory Enhanced Self-Attention Mechanism (PMESA), aimed at reducing the impact of background noise. These elements collectively enable BFA-YOLO to effectively address each challenge, thereby improving model robustness and detection precision. The BFA-3D dataset, offers multi-view images with precise annotations across a wide range of fa\c{c}ade attachment categories. This dataset is developed to address the limitations present in existing fa\c{c}ade detection datasets, which often feature a single perspective and insufficient category coverage. Through comparative analysis, BFA-YOLO demonstrated improvements of 1.8\% and 2.9\% in mAP$_{50}$ on the BFA-3D dataset and the public Fa\c{c}ade-WHU dataset, respectively, when compared to the baseline YOLOv8 model. These results highlight the superior performance of BFA-YOLO in fa\c{c}ade element detection and the advancement of intelligent BIM technologies.
- Abstract(参考訳): ドア、窓、バルコニー、空調ユニット、看板、ガラスカーテンウォールなどの建物におけるfa\c{c}ade要素の検出は、ビルディング情報モデリング(BIM)の作成を自動化する重要なステップである。
しかし、この分野は、fa\c{c}ade要素の不均一な分布、小さな物体の存在、検出精度の低下など、重大な課題に直面している。
これらの課題に対処するため,本研究では,BFA-YOLOモデルとBFA-3Dデータセットを開発した。
BFA-YOLOモデルは、fa\c{c}adeアタッチメントのマルチビュー画像を分析するために特別に設計された高度なアーキテクチャである。
不均一なオブジェクト分散の問題に対処するFeature Balanced Spindle Module (FBSM)、小さなオブジェクトの検出を強化するTDATH(Target Dynamic Alignment Task Detection Head)、バックグラウンドノイズの影響を低減するための位置記憶強化自己認識メカニズム(PMESA)の3つの新しいコンポーネントを統合している。
これらの要素により、BFA-YOLOは各課題に効果的に対応することができ、モデルの堅牢性と検出精度が向上する。
BFA-3Dデータセットは、さまざまなfa\c{c}adeアタッチメントカテゴリにわたる正確なアノテーションを備えたマルチビュー画像を提供する。
このデータセットは、既存のfa\c{c}ade検出データセットに存在する制限に対処するために開発された。
比較分析により、BFA-YOLOは、ベースラインのYOLOv8モデルと比較して、BFA-3DデータセットとパブリックなFa\c{c}ade-WHUデータセットにおいて、mAP$_{50}$で1.8\%と2.9\%の改善を示した。
これらの結果は、fa\c{c}ade要素検出におけるBFA-YOLOの優れた性能とインテリジェントBIM技術の進歩を浮き彫りにした。
関連論文リスト
- Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。
本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。
我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文 参考訳(メタデータ) (2024-10-09T22:57:47Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - SCA-PVNet: Self-and-Cross Attention Based Aggregation of Point Cloud and
Multi-View for 3D Object Retrieval [8.74845857766369]
大規模データセットを用いた多モード3Dオブジェクト検索はめったに行われない。
本稿では,3次元オブジェクト検索のための点群と多視点画像の自己・横断的アグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-07-20T05:46:32Z) - AOP-Net: All-in-One Perception Network for Joint LiDAR-based 3D Object
Detection and Panoptic Segmentation [9.513467995188634]
AOP-NetはLiDARベースのマルチタスクフレームワークで、3Dオブジェクトの検出とパノプティクスのセグメンテーションを組み合わせたものである。
AOP-Netは、nuScenesベンチマークにおける3Dオブジェクト検出とパノプティクスセグメンテーションの両タスクについて、最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-02T05:31:53Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - Personal Fixations-Based Object Segmentation with Object Localization
and Boundary Preservation [60.41628937597989]
我々はPFOS(Personal Fixations-based Object)に着目し,過去の研究の課題に対処する。
視線オブジェクトをセグメント化するオブジェクトローカリゼーションと境界保存(OLBP)に基づく新しいネットワークを提案する。
OLBPは複数のタイプの深い監督の混合されたボトムアップおよびトップダウンの方法で整理されます。
論文 参考訳(メタデータ) (2021-01-22T09:20:47Z) - Multi-View Adaptive Fusion Network for 3D Object Detection [14.506796247331584]
LiDAR-カメラ融合に基づく3Dオブジェクト検出は、自動運転の新たな研究テーマになりつつある。
本稿では,LiDARの鳥眼ビュー,LiDARレンジビュー,カメラビューイメージを3Dオブジェクト検出の入力として利用する,単一ステージ多視点融合フレームワークを提案する。
これら2つのコンポーネントを統合するために,MVAF-Netというエンドツーエンドの学習ネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-02T00:06:01Z) - Cross-layer Feature Pyramid Network for Salient Object Detection [102.20031050972429]
本稿では,有能な物体検出における進行的融合を改善するために,新しいクロス層特徴ピラミッドネットワークを提案する。
レイヤごとの分散機能は、他のすべてのレイヤからセマンティクスと健全な詳細の両方を同時に所有し、重要な情報の損失を減らします。
論文 参考訳(メタデータ) (2020-02-25T14:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。