論文の概要: BAFPN: Bi directional alignment of features to improve localization accuracy
- arxiv url: http://arxiv.org/abs/2412.01859v1
- Date: Sun, 01 Dec 2024 04:44:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:44:46.411039
- Title: BAFPN: Bi directional alignment of features to improve localization accuracy
- Title(参考訳): BAFPN: 局所化精度向上のための特徴の双方向アライメント
- Authors: Li Jiakun, Wang Qingqing, Dong Hongbin, Li Kexin,
- Abstract要約: 現在の視覚モデルは、しばしば多スケール情報を抽出するために特徴ピラミッドを利用する。
Feature Pyramid Network (FPN) は、最も広く使われている古典建築の一つである。
従来のFPNは、グローバルスケールでの空間的不整合に完全に対処できず、オブジェクトの高精度なローカライゼーションにおいて、最適以下のパフォーマンスをもたらす。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Current state-of-the-art vision models often utilize feature pyramids to extract multi-scale information, with the Feature Pyramid Network (FPN) being one of the most widely used classic architectures. However, traditional FPNs and their variants (e.g., AUGFPN, PAFPN) fail to fully address spatial misalignment on a global scale, leading to suboptimal performance in high-precision localization of objects. In this paper, we propose a novel Bidirectional Alignment Feature Pyramid Network (BAFPN), which aligns misaligned features globally through a Spatial Feature Alignment Module (SPAM) during the bottom-up information propagation phase. Subsequently, it further mitigates aliasing effects caused by cross-scale feature fusion via a fine-grained Semantic Alignment Module (SEAM) in the top-down phase. On the DOTAv1.5 dataset, BAFPN improves the baseline model's AP75, AP50, and mAP by 1.68%, 1.45%, and 1.34%, respectively. Additionally, BAFPN demonstrates significant performance gains when applied to various other advanced detectors.
- Abstract(参考訳): 現在の最先端のビジョンモデルは、しばしば機能ピラミッドを利用してマルチスケール情報を抽出し、機能ピラミッドネットワーク(FPN)は最も広く使われている古典的アーキテクチャの1つである。
しかし、従来のFPNとその変種(例えば、AUGFPN、PAFPN)は、グローバルスケールでの空間的不整合を完全に解決することができず、オブジェクトの高精度なローカライゼーションにおいて、準最適性能をもたらす。
本稿では、ボトムアップ情報伝達フェーズにおいて、空間的特徴アライメントモジュール(SPAM)を介して、不整合な特徴を世界規模で整列させる新しい双方向特徴ピラミッドネットワーク(BAFPN)を提案する。
その後、トップダウンフェーズの細粒度セマンティックアライメントモジュール(SEAM)を介して、クロススケール機能融合によるエイリアス効果を緩和する。
DOTAv1.5データセットでは,ベースラインモデルのAP75,AP50,mAPをそれぞれ1.68%,1.45%,1.34%改善している。
さらに、BAFPNは、他の様々な先進検出器に適用すると、大幅な性能向上を示す。
関連論文リスト
- Multi-Branch Auxiliary Fusion YOLO with Re-parameterization Heterogeneous Convolutional for accurate object detection [3.7793767915135295]
本稿では,MAF-YOLOという新しいモデルを提案する。
Multi-Branch Auxiliary FPN (MAFPN) という名前の汎用ネックを持つ新しいオブジェクト検出フレームワークである。
例えばMAF-YOLOのナノバージョンを使用すれば、3.76Mの学習可能なパラメータと10.51GのFLOPでCOCO上の42.4%のAPを達成でき、YOLOv8nを約5.1%上回る。
論文 参考訳(メタデータ) (2024-07-05T09:35:30Z) - AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation [80.33846577924363]
ビデオフレームギスブのための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。
まず、すべての画素に対して双方向のボリュームを構築し、予測された両側フローを用いて相関関係を検索する。
第2に、入力フレーム上で逆向きのワープを行うために、一対の更新された粗い流れから細粒度の流れ場の複数のグループを導出する。
論文 参考訳(メタデータ) (2023-04-19T16:18:47Z) - Disentangled Federated Learning for Tackling Attributes Skew via
Invariant Aggregation and Diversity Transferring [104.19414150171472]
属性は、クライアント間の一貫した最適化方向から、現在の連邦学習(FL)フレームワークを歪めます。
本稿では,ドメイン固有属性とクロス不変属性を2つの補足枝に分離するために,非絡み付きフェデレーション学習(DFL)を提案する。
実験により、DFLはSOTA FL法と比較して高い性能、より良い解釈可能性、より高速な収束率でFLを促進することが確認された。
論文 参考訳(メタデータ) (2022-06-14T13:12:12Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - DeMFI: Deep Joint Deblurring and Multi-Frame Interpolation with
Flow-Guided Attentive Correlation and Recursive Boosting [50.17500790309477]
DeMFI-Netは、共同でデブロアリングとマルチフレームのフレームワークである。
低フレームレートのぼやけたビデオを高フレームレートでシャープなビデオに変換する。
多様なデータセットに対して、最先端(SOTA)のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-19T00:00:15Z) - FaPN: Feature-aligned Pyramid Network for Dense Image Prediction [6.613724825924151]
本稿では,画素の変換オフセットから,アップサンプリング機能への変換を学習する機能アライメントモジュールを提案する。
次に、これらの2つのモジュールをトップダウンピラミッドアーキテクチャに統合し、Feature-aligned Pyramid Network (FaPN)を提示します。
特に、私たちのFaPNは Mask-Former に統合された ADE20K 上で56.7% mIoU の最先端を実現している。
論文 参考訳(メタデータ) (2021-08-16T12:52:42Z) - A^2-FPN: Attention Aggregation based Feature Pyramid Network for
Instance Segmentation [68.10621089649486]
アテンションアグリゲーションに基づく機能ピラミッドネットワーク(A2-FPN)を提案し、マルチスケール機能学習を改善します。
A2-FPNは、Cascade Mask R-CNNやHybrid Task Cascadeといった強力なベースラインに統合された場合、2.0%と1.4%のマスクAPを改善する。
論文 参考訳(メタデータ) (2021-05-07T11:51:08Z) - Parallel Residual Bi-Fusion Feature Pyramid Network for Accurate
Single-Shot Object Detection [22.817918566911203]
本稿では,高速かつ高精度な単発物体検出のための並列残差二フュージョン特徴ピラミッドネットワーク(PRB-FPN)を提案する。
提案するネットワークは,UAVDT17およびMS COCOデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2020-12-03T06:51:20Z) - Dynamic Feature Pyramid Networks for Object Detection [40.24111664691307]
本稿では,各層に異なるカーネルサイズを持つ畳み込みフィルタを組み込んで,受容場を拡大するFPNを提案する。
計算コストの異なる複数の分岐からなる新しい動的FPN(DyFPN)を提案する。
ベンチマーク実験により,提案したDyFPNは計算資源の最適割り当てにより性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2020-12-01T19:03:55Z) - FPCR-Net: Feature Pyramidal Correlation and Residual Reconstruction for
Optical Flow Estimation [72.41370576242116]
フレーム対からの光フロー推定のための半教師付き特徴ピラミッド相関・残留再構成ネットワーク(FPCR-Net)を提案する。
ピラミッド相関マッピングと残留再構成の2つの主要なモジュールで構成されている。
実験結果から,提案手法は,平均終点誤差 (AEE) に対して0.80, 1.15, 0.10の改善を達成し,最先端性能を実現していることがわかった。
論文 参考訳(メタデータ) (2020-01-17T07:13:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。