論文の概要: BFA-YOLO: Balanced multiscale object detection network for multi-view building facade attachments detection
- arxiv url: http://arxiv.org/abs/2409.04025v1
- Date: Fri, 6 Sep 2024 04:44:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 16:48:15.968953
- Title: BFA-YOLO: Balanced multiscale object detection network for multi-view building facade attachments detection
- Title(参考訳): BFA-YOLO:マルチビュービルディングファサードアタッチメント検出のためのバランスの取れたマルチスケール物体検出ネットワーク
- Authors: Yangguang Chen, Tong Wang, Guanzhou Chen, Kun Zhu, Xiaoliang Tan, Jiaqi Wang, Hong Xie, Wenlin Zhou, Jingyi Zhao, Qing Wang, Xiaolong Luo, Xiaodong Zhang,
- Abstract要約: ファサードアタッチメントの検出は多くの応用において重要な役割を担っている。
不均一なオブジェクトの分散、小さなオブジェクト検出の難しさ、バックグラウンドの干渉といった課題に直面します。
マルチビュー画像におけるファサードアタッチメントの検出モデルであるBFA-YOLOを提案する。
- 参考スコア(独自算出の注目度): 26.46161284011197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detection of building facade attachments such as doors, windows, balconies, air conditioner units, billboards, and glass curtain walls plays a pivotal role in numerous applications. Building facade attachments detection aids in vbuilding information modeling (BIM) construction and meeting Level of Detail 3 (LOD3) standards. Yet, it faces challenges like uneven object distribution, small object detection difficulty, and background interference. To counter these, we propose BFA-YOLO, a model for detecting facade attachments in multi-view images. BFA-YOLO incorporates three novel innovations: the Feature Balanced Spindle Module (FBSM) for addressing uneven distribution, the Target Dynamic Alignment Task Detection Head (TDATH) aimed at improving small object detection, and the Position Memory Enhanced Self-Attention Mechanism (PMESA) to combat background interference, with each component specifically designed to solve its corresponding challenge. Detection efficacy of deep network models deeply depends on the dataset's characteristics. Existing open source datasets related to building facades are limited by their single perspective, small image pool, and incomplete category coverage. We propose a novel method for building facade attachments detection dataset construction and construct the BFA-3D dataset for facade attachments detection. The BFA-3D dataset features multi-view, accurate labels, diverse categories, and detailed classification. BFA-YOLO surpasses YOLOv8 by 1.8% and 2.9% in mAP@0.5 on the multi-view BFA-3D and street-view Facade-WHU datasets, respectively. These results underscore BFA-YOLO's superior performance in detecting facade attachments.
- Abstract(参考訳): ドア、窓、バルコニー、エアコンユニット、看板、ガラスカーテンウォールなどのファサードアタッチメントの検出は多くの応用において重要な役割を担っている。
ビルのファサードアタッチメント検出は、ビル情報モデリング(BIM)の構築と会議のレベル・オブ・ディーテール3(LOD3)標準の策定に役立ちます。
しかし、不均一なオブジェクト分散、小さなオブジェクト検出困難、バックグラウンド干渉といった課題に直面している。
そこで本研究では,多視点画像におけるファサードアタッチメント検出モデルであるBFA-YOLOを提案する。
BFA-YOLOは、不均一な分散に対処するためのFeature Balanced Spindle Module (FBSM)、小さなオブジェクト検出を改善するためのTDATH(Target Dynamic Alignment Task Detection Head)、バックグラウンド干渉に対処するための位置記憶強化自己注意機構(PMESA)の3つの新しいイノベーションを取り入れている。
ディープネットワークモデルの検出の有効性はデータセットの特性に大きく依存する。
ファサード構築に関連する既存のオープンソースデータセットは、単一の視点、小さなイメージプール、不完全なカテゴリカバレッジによって制限されている。
ファサードアタッチメント検出データセット構築のための新しい手法を提案し, ファサードアタッチメント検出のためのBFA-3Dデータセットを構築する。
BFA-3Dデータセットには、マルチビュー、正確なラベル、多様なカテゴリ、詳細な分類が含まれる。
BFA-YOLOは、マルチビューのBFA-3DとストリートビューのFacade-WHUデータセットでそれぞれ、YOLOv8を1.8%、mAP@0.5で2.9%上回る。
これらの結果は, ファサードアタッチメント検出におけるBFA-YOLOの優れた性能を裏付けるものである。
関連論文リスト
- MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection [111.68263493302499]
DetCLIPv3は、オープンボキャブラリオブジェクト検出と階層ラベルの両方で優れた高性能検出器である。
DetCLIPv3は,1)Versatileモデルアーキテクチャ,2)高情報密度データ,3)効率的なトレーニング戦略の3つのコア設計によって特徴付けられる。
DetCLIPv3は、GLIPv2, GroundingDINO, DetCLIPv2をそれぞれ18.0/19.6/6 APで上回り、優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2024-04-14T11:01:44Z) - UniMODE: Unified Monocular 3D Object Detection [70.27631528933482]
我々は,鳥眼視(BEV)検出パラダイムに基づく検出器を構築した。
本稿では,この課題に起因する収束不安定性に対応するために,不均一なBEVグリッド設計を提案する。
統一検出器UniMODEが導出され、挑戦的なOmni3Dデータセットの先行技術を上回る。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - SCA-PVNet: Self-and-Cross Attention Based Aggregation of Point Cloud and
Multi-View for 3D Object Retrieval [8.74845857766369]
大規模データセットを用いた多モード3Dオブジェクト検索はめったに行われない。
本稿では,3次元オブジェクト検索のための点群と多視点画像の自己・横断的アグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-07-20T05:46:32Z) - AOP-Net: All-in-One Perception Network for Joint LiDAR-based 3D Object
Detection and Panoptic Segmentation [9.513467995188634]
AOP-NetはLiDARベースのマルチタスクフレームワークで、3Dオブジェクトの検出とパノプティクスのセグメンテーションを組み合わせたものである。
AOP-Netは、nuScenesベンチマークにおける3Dオブジェクト検出とパノプティクスセグメンテーションの両タスクについて、最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-02T05:31:53Z) - Feature Aggregation and Propagation Network for Camouflaged Object
Detection [42.33180748293329]
カモフラージュされたオブジェクト検出(COD)は、環境に埋め込まれたカモフラージュされたオブジェクトを検出し、分離することを目的としている。
いくつかのCOD法が開発されているが, 前景オブジェクトと背景環境との固有の類似性により, 依然として不満足な性能に悩まされている。
カモフラージュされた物体検出のための新しい特徴集約・伝播ネットワーク(FAP-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:54:28Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - Personal Fixations-Based Object Segmentation with Object Localization
and Boundary Preservation [60.41628937597989]
我々はPFOS(Personal Fixations-based Object)に着目し,過去の研究の課題に対処する。
視線オブジェクトをセグメント化するオブジェクトローカリゼーションと境界保存(OLBP)に基づく新しいネットワークを提案する。
OLBPは複数のタイプの深い監督の混合されたボトムアップおよびトップダウンの方法で整理されます。
論文 参考訳(メタデータ) (2021-01-22T09:20:47Z) - Multi-View Adaptive Fusion Network for 3D Object Detection [14.506796247331584]
LiDAR-カメラ融合に基づく3Dオブジェクト検出は、自動運転の新たな研究テーマになりつつある。
本稿では,LiDARの鳥眼ビュー,LiDARレンジビュー,カメラビューイメージを3Dオブジェクト検出の入力として利用する,単一ステージ多視点融合フレームワークを提案する。
これら2つのコンポーネントを統合するために,MVAF-Netというエンドツーエンドの学習ネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-02T00:06:01Z) - Cross-layer Feature Pyramid Network for Salient Object Detection [102.20031050972429]
本稿では,有能な物体検出における進行的融合を改善するために,新しいクロス層特徴ピラミッドネットワークを提案する。
レイヤごとの分散機能は、他のすべてのレイヤからセマンティクスと健全な詳細の両方を同時に所有し、重要な情報の損失を減らします。
論文 参考訳(メタデータ) (2020-02-25T14:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。