論文の概要: MHAF-YOLO: Multi-Branch Heterogeneous Auxiliary Fusion YOLO for accurate object detection
- arxiv url: http://arxiv.org/abs/2502.04656v1
- Date: Fri, 07 Feb 2025 04:49:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:56:35.157909
- Title: MHAF-YOLO: Multi-Branch Heterogeneous Auxiliary Fusion YOLO for accurate object detection
- Title(参考訳): MHAF-YOLO: 高精度物体検出のためのマルチブランチ異種補助核融合
- Authors: Zhiqiang Yang, Qiu Guan, Zhongwen Yu, Xinli Xu, Haixia Long, Sheng Lian, Haigen Hu, Ying Tang,
- Abstract要約: MHAF-YOLOは,Multi-Branch Auxiliary FPN(MAFPN)と呼ばれる多機能ネックデザインを特徴とする新しい検出フレームワークである。
SAFは背骨と首を浅い特徴を融合させて橋渡しし、重要な低レベル空間情報を高い忠実度で効果的に転送する。
AAFは、より深いネック層におけるマルチスケールの特徴情報を統合し、出力層によりリッチな勾配情報を提供し、さらにモデル学習能力を高める。
RepHMSはグローバルにネットワークに統合されており、GHFKSを利用して様々な特徴層に対して大きな畳み込みカーネルを選択し、垂直受容領域を拡張し、空間階層にわたってコンテキスト情報をキャプチャする。
- 参考スコア(独自算出の注目度): 3.87627600245713
- License:
- Abstract: Due to the effective multi-scale feature fusion capabilities of the Path Aggregation FPN (PAFPN), it has become a widely adopted component in YOLO-based detectors. However, PAFPN struggles to integrate high-level semantic cues with low-level spatial details, limiting its performance in real-world applications, especially with significant scale variations. In this paper, we propose MHAF-YOLO, a novel detection framework featuring a versatile neck design called the Multi-Branch Auxiliary FPN (MAFPN), which consists of two key modules: the Superficial Assisted Fusion (SAF) and Advanced Assisted Fusion (AAF). The SAF bridges the backbone and the neck by fusing shallow features, effectively transferring crucial low-level spatial information with high fidelity. Meanwhile, the AAF integrates multi-scale feature information at deeper neck layers, delivering richer gradient information to the output layer and further enhancing the model learning capacity. To complement MAFPN, we introduce the Global Heterogeneous Flexible Kernel Selection (GHFKS) mechanism and the Reparameterized Heterogeneous Multi-Scale (RepHMS) module to enhance feature fusion. RepHMS is globally integrated into the network, utilizing GHFKS to select larger convolutional kernels for various feature layers, expanding the vertical receptive field and capturing contextual information across spatial hierarchies. Locally, it optimizes convolution by processing both large and small kernels within the same layer, broadening the lateral receptive field and preserving crucial details for detecting smaller targets. The source code of this work is available at: https://github.com/yang0201/MHAF-YOLO.
- Abstract(参考訳): Path Aggregation FPN (PAFPN) のマルチスケール機能融合能力により、YOLOベースの検出器において広く採用されている。
しかしながら、PAFPNは高レベルのセマンティックキューと低レベルの空間的詳細を統合するのに苦労し、特に大きなスケールのバリエーションを持つ現実世界のアプリケーションの性能を制限している。
本稿では,多分岐補助核融合(MAFPN, Multi-Branch Auxiliary FPN)と呼ばれる多機能ネックデザインを特徴とする新しい検出フレームワークであるMHAF-YOLOを提案する。
SAFは背骨と首を浅い特徴を融合させて橋渡しし、重要な低レベル空間情報を高い忠実度で効果的に転送する。
一方、AFは、より深いネック層におけるマルチスケールの特徴情報を統合し、出力層によりリッチな勾配情報を提供し、モデル学習能力をさらに強化する。
MAFPNを補完するために,GHFKS(Global Heterogeneous Flexible Kernel Selection)機構とReparameterized Heterogeneous Multi-Scale(RepHMS)モジュールを導入する。
RepHMSはグローバルにネットワークに統合されており、GHFKSを利用して様々な特徴層に対して大きな畳み込みカーネルを選択し、垂直受容領域を拡張し、空間階層にわたってコンテキスト情報をキャプチャする。
局所的には、同じ層内で大きなカーネルと小さなカーネルの両方を処理して畳み込みを最適化し、横方向の受容領域を広げ、より小さなターゲットを検出するために重要な詳細を保存する。
この作業のソースコードは、https://github.com/yang0201/MHAF-YOLOで公開されている。
関連論文リスト
- Unity is Strength: Unifying Convolutional and Transformeral Features for Better Person Re-Identification [60.9670254833103]
人物再識別(ReID)は、重複しないカメラを通して特定の人物を回収することを目的としている。
画像に基づく人物ReIDのためのCNNとトランスフォーマーの強みを統合するために,FusionReIDと呼ばれる新しい融合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-23T03:19:19Z) - Accelerated Multi-Contrast MRI Reconstruction via Frequency and Spatial Mutual Learning [50.74383395813782]
本稿では,周波数・空間相互学習ネットワーク(FSMNet)を提案する。
提案したFSMNetは, 加速度係数の異なるマルチコントラストMR再構成タスクに対して, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-09-21T12:02:47Z) - Attention-Guided Multi-scale Interaction Network for Face Super-Resolution [46.42710591689621]
CNNとTransformerハイブリッドネットワークは、顔超解像(FSR)タスクにおいて優れた性能を示した。
マルチスケール機能を融合し、それらの相補性を促進する方法は、FSRの強化に不可欠である。
私たちの設計では、モジュール内およびエンコーダとデコーダ間のマルチスケール機能のフリーフローを可能にします。
論文 参考訳(メタデータ) (2024-09-01T02:53:24Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Multi-Branch Auxiliary Fusion YOLO with Re-parameterization Heterogeneous Convolutional for accurate object detection [3.7793767915135295]
本稿では,MAF-YOLOという新しいモデルを提案する。
Multi-Branch Auxiliary FPN (MAFPN) という名前の汎用ネックを持つ新しいオブジェクト検出フレームワークである。
例えばMAF-YOLOのナノバージョンを使用すれば、3.76Mの学習可能なパラメータと10.51GのFLOPでCOCO上の42.4%のAPを達成でき、YOLOv8nを約5.1%上回る。
論文 参考訳(メタデータ) (2024-07-05T09:35:30Z) - Local-to-Global Cross-Modal Attention-Aware Fusion for HSI-X Semantic Segmentation [19.461033552684576]
HSI-X分類のためのローカル・グローバル・クロスモーダル・アテンション・アウェア・フュージョン(LoGoCAF)フレームワークを提案する。
LoGoCAFは、HSIとXのモダリティから情報を学ぶために、ピクセルからピクセルまでのセマンティックセマンティックセマンティックセマンティクスアーキテクチャを採用している。
論文 参考訳(メタデータ) (2024-06-25T16:12:20Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z) - Cross-layer Feature Pyramid Network for Salient Object Detection [102.20031050972429]
本稿では,有能な物体検出における進行的融合を改善するために,新しいクロス層特徴ピラミッドネットワークを提案する。
レイヤごとの分散機能は、他のすべてのレイヤからセマンティクスと健全な詳細の両方を同時に所有し、重要な情報の損失を減らします。
論文 参考訳(メタデータ) (2020-02-25T14:06:27Z) - Multi-Level Feature Fusion Mechanism for Single Image Super-Resolution [0.0]
畳み込みニューラルネットワーク(CNN)は、Single Image Super Resolution(SISR)で広く使われている。
CNNに基づくほとんどのSISRメソッドは階層的特徴とネットワークの学習能力を十分に利用していない。
グローバルな中間機能を完全に活用できるMLRN(Multi-Level Feature Fusion Network)が提案されている。
論文 参考訳(メタデータ) (2020-02-14T10:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。