Fugu-MT 論文翻訳(概要): BFA-YOLO: Balanced multiscale object detection network for multi-view building facade attachments detection

論文の概要: BFA-YOLO: Balanced multiscale object detection network for multi-view building facade attachments detection

arxiv url: http://arxiv.org/abs/2409.04025v1
Date: Fri, 6 Sep 2024 04:44:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-09 16:48:15.968953
Title: BFA-YOLO: Balanced multiscale object detection network for multi-view building facade attachments detection
Title（参考訳）: BFA-YOLO:マルチビュービルディングファサードアタッチメント検出のためのバランスの取れたマルチスケール物体検出ネットワーク
Authors: Yangguang Chen, Tong Wang, Guanzhou Chen, Kun Zhu, Xiaoliang Tan, Jiaqi Wang, Hong Xie, Wenlin Zhou, Jingyi Zhao, Qing Wang, Xiaolong Luo, Xiaodong Zhang,
Abstract要約: ファサードアタッチメントの検出は多くの応用において重要な役割を担っている。不均一なオブジェクトの分散、小さなオブジェクト検出の難しさ、バックグラウンドの干渉といった課題に直面します。マルチビュー画像におけるファサードアタッチメントの検出モデルであるBFA-YOLOを提案する。
参考スコア（独自算出の注目度）: 26.46161284011197
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Detection of building facade attachments such as doors, windows, balconies, air conditioner units, billboards, and glass curtain walls plays a pivotal role in numerous applications. Building facade attachments detection aids in vbuilding information modeling (BIM) construction and meeting Level of Detail 3 (LOD3) standards. Yet, it faces challenges like uneven object distribution, small object detection difficulty, and background interference. To counter these, we propose BFA-YOLO, a model for detecting facade attachments in multi-view images. BFA-YOLO incorporates three novel innovations: the Feature Balanced Spindle Module (FBSM) for addressing uneven distribution, the Target Dynamic Alignment Task Detection Head (TDATH) aimed at improving small object detection, and the Position Memory Enhanced Self-Attention Mechanism (PMESA) to combat background interference, with each component specifically designed to solve its corresponding challenge. Detection efficacy of deep network models deeply depends on the dataset's characteristics. Existing open source datasets related to building facades are limited by their single perspective, small image pool, and incomplete category coverage. We propose a novel method for building facade attachments detection dataset construction and construct the BFA-3D dataset for facade attachments detection. The BFA-3D dataset features multi-view, accurate labels, diverse categories, and detailed classification. BFA-YOLO surpasses YOLOv8 by 1.8% and 2.9% in mAP@0.5 on the multi-view BFA-3D and street-view Facade-WHU datasets, respectively. These results underscore BFA-YOLO's superior performance in detecting facade attachments.
Abstract（参考訳）: ドア、窓、バルコニー、エアコンユニット、看板、ガラスカーテンウォールなどのファサードアタッチメントの検出は多くの応用において重要な役割を担っている。ビルのファサードアタッチメント検出は、ビル情報モデリング(BIM)の構築と会議のレベル・オブ・ディーテール3(LOD3)標準の策定に役立ちます。しかし、不均一なオブジェクト分散、小さなオブジェクト検出困難、バックグラウンド干渉といった課題に直面している。そこで本研究では,多視点画像におけるファサードアタッチメント検出モデルであるBFA-YOLOを提案する。 BFA-YOLOは、不均一な分散に対処するためのFeature Balanced Spindle Module (FBSM)、小さなオブジェクト検出を改善するためのTDATH(Target Dynamic Alignment Task Detection Head)、バックグラウンド干渉に対処するための位置記憶強化自己注意機構(PMESA)の3つの新しいイノベーションを取り入れている。ディープネットワークモデルの検出の有効性はデータセットの特性に大きく依存する。ファサード構築に関連する既存のオープンソースデータセットは、単一の視点、小さなイメージプール、不完全なカテゴリカバレッジによって制限されている。ファサードアタッチメント検出データセット構築のための新しい手法を提案し, ファサードアタッチメント検出のためのBFA-3Dデータセットを構築する。 BFA-3Dデータセットには、マルチビュー、正確なラベル、多様なカテゴリ、詳細な分類が含まれる。 BFA-YOLOは、マルチビューのBFA-3DとストリートビューのFacade-WHUデータセットでそれぞれ、YOLOv8を1.8%、mAP@0.5で2.9%上回る。これらの結果は, ファサードアタッチメント検出におけるBFA-YOLOの優れた性能を裏付けるものである。

関連論文リスト

PointOBB-v3: Expanding Performance Boundaries of Single Point-Supervised Oriented Object Detection [65.84604846389624]
我々は,より強力な単一点制御OODフレームワークであるPointOBB-v3を提案する。追加のプリミティブなしで擬似回転ボックスを生成し、エンドツーエンドのパラダイムをサポートする。本手法は従来の最先端手法と比較して3.56%の精度向上を実現している。
論文参考訳（メタデータ） (2025-01-23T18:18:15Z)
Efficient Feature Aggregation and Scale-Aware Regression for Monocular 3D Object Detection [40.14197775884804]
MonoASRHは、効率的なハイブリッド特徴集約モジュール(EH-FAM)と適応スケール対応3D回帰ヘッド(ASRH)で構成される新しいモノクル3D検出フレームワークである。 EH-FAMは、小規模オブジェクトのセマンティックな特徴を抽出するために、グローバルな受容領域を持つマルチヘッドアテンションを用いる。 ASRHは2次元境界ボックス次元を符号化し、EH-FAMで集約された意味的特徴とスケール特徴を融合する。
論文参考訳（メタデータ） (2024-11-05T02:33:25Z)
YOLOv11: An Overview of the Key Architectural Enhancements [0.5639904484784127]
本稿では、オブジェクト検出、インスタンスセグメンテーション、ポーズ推定、オブジェクト指向オブジェクト検出(OBB)など、さまざまなコンピュータビジョンタスクにまたがるYOLOv11の拡張機能について検討する。本稿では,パラメータ数と精度のトレードオフに着目し,平均精度(mAP)と計算効率の両面からモデルの性能改善を概観する。我々の研究は、オブジェクト検出の広い視野におけるYOLOv11の位置と、リアルタイムコンピュータビジョンアプリケーションに対する潜在的な影響についての洞察を提供する。
論文参考訳（メタデータ） (2024-10-23T09:55:22Z)
A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap [50.079224604394]
textbfContext-textbfEnhanced textbfFeature textbfAment (CEFA) と呼ばれる新しいモデルに依存しないフレームワークを提案する。 CEFAは機能アライメントモジュールとコンテキスト拡張モジュールで構成される。本手法は, 稀なカテゴリにおけるHOIモデルの検出性能を向上させるために, プラグアンドプレイモジュールとして機能する。
論文参考訳（メタデータ） (2024-07-31T08:42:48Z)
Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文参考訳（メタデータ） (2024-02-28T18:59:31Z)
Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。提案手法は平均精度(MAP)を約45.7%向上させる。この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文参考訳（メタデータ） (2023-11-21T19:49:13Z)
Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文参考訳（メタデータ） (2021-05-07T03:49:26Z)
Salient Object Detection via Integrity Learning [104.13483971954233]
整合性とは、ある有能な対象に属するすべての部分を強調する概念である。 ICON(Inteinity Cognition Network)の設計により,高感度物体検出のための整合性学習を容易にする。 ICONは3つの重要なコンポーネントを探索し、強力な整合性機能を学びます。
論文参考訳（メタデータ） (2021-01-19T14:53:12Z)
Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文参考訳（メタデータ） (2021-01-07T07:33:38Z)
Multi-View Adaptive Fusion Network for 3D Object Detection [14.506796247331584]
LiDAR-カメラ融合に基づく3Dオブジェクト検出は、自動運転の新たな研究テーマになりつつある。本稿では,LiDARの鳥眼ビュー,LiDARレンジビュー,カメラビューイメージを3Dオブジェクト検出の入力として利用する,単一ステージ多視点融合フレームワークを提案する。これら2つのコンポーネントを統合するために,MVAF-Netというエンドツーエンドの学習ネットワークを設計する。
論文参考訳（メタデータ） (2020-11-02T00:06:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。