論文の概要: Cross-Layer Feature Pyramid Transformer for Small Object Detection in Aerial Images
- arxiv url: http://arxiv.org/abs/2407.19696v1
- Date: Mon, 29 Jul 2024 04:40:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 15:06:20.329830
- Title: Cross-Layer Feature Pyramid Transformer for Small Object Detection in Aerial Images
- Title(参考訳): 空中画像における小型物体検出用クロス層型ピラミッド変圧器
- Authors: Zewen Du, Zhenjiang Hu, Guiyu Zhao, Ying Jin, Hongbin Ma,
- Abstract要約: 空中画像における物体検出は、通常、物体のサイズが小さいため、常に困難な作業であった。
現在の検出器の多くは新しい検出フレームワークを優先しており、しばしば特徴ピラミッドネットワークのような基本的なコンポーネントの研究を見落としている。
空中画像における小物体検出に特化して設計された新しいアップサンプラーフリー特徴ピラミッドネットワークであるCFPT(Cross-Layer Feature Pyramid Transformer)を紹介する。
- 参考スコア(独自算出の注目度): 5.652171904017473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object detection in aerial images has always been a challenging task due to the generally small size of the objects. Most current detectors prioritize novel detection frameworks, often overlooking research on fundamental components such as feature pyramid networks. In this paper, we introduce the Cross-Layer Feature Pyramid Transformer (CFPT), a novel upsampler-free feature pyramid network designed specifically for small object detection in aerial images. CFPT incorporates two meticulously designed attention blocks with linear computational complexity: the Cross-Layer Channel-Wise Attention (CCA) and the Cross-Layer Spatial-Wise Attention (CSA). CCA achieves cross-layer interaction by dividing channel-wise token groups to perceive cross-layer global information along the spatial dimension, while CSA completes cross-layer interaction by dividing spatial-wise token groups to perceive cross-layer global information along the channel dimension. By integrating these modules, CFPT enables cross-layer interaction in one step, thereby avoiding the semantic gap and information loss associated with element-wise summation and layer-by-layer transmission. Furthermore, CFPT incorporates global contextual information, which enhances detection performance for small objects. To further enhance location awareness during cross-layer interaction, we propose the Cross-Layer Consistent Relative Positional Encoding (CCPE) based on inter-layer mutual receptive fields. We evaluate the effectiveness of CFPT on two challenging object detection datasets in aerial images, namely VisDrone2019-DET and TinyPerson. Extensive experiments demonstrate the effectiveness of CFPT, which outperforms state-of-the-art feature pyramid networks while incurring lower computational costs. The code will be released at https://github.com/duzw9311/CFPT.
- Abstract(参考訳): 空中画像における物体検出は、通常、物体のサイズが小さいため、常に困難な作業であった。
現在の検出器の多くは新しい検出フレームワークを優先しており、しばしば特徴ピラミッドネットワークのような基本的なコンポーネントの研究を見落としている。
本稿では,空中画像における小物体検出に特化して設計された,新しいアップサンプラーレス特徴ピラミッドネットワークであるCFPTについて紹介する。
CFPTには、CCA(Cross-Layer Channel-Wise Attention)とCSA(Cross-Layer Space-Wise Attention)という2つの細心の注意ブロックが組み込まれている。
CCAは、チャネル単位のトークン群を分割して、空間次元に沿った層間グローバル情報を知覚し、CSAは、チャネル次元に沿った層間グローバル情報を知覚することで、層間インタラクションを実現する。
これらのモジュールを統合することで、CFPTは1ステップで層間相互作用を可能にし、要素の和や層間伝達に関連する意味的ギャップや情報損失を回避することができる。
さらに、CFPTにはグローバルなコンテキスト情報が含まれており、小さなオブジェクトに対する検出性能が向上する。
層間相互作用における位置認識をさらに高めるため,層間相互受容場に基づくCCPE(Cross-Layer Consistent Relative Positional Encoding)を提案する。
CFPTの空中画像における2つの困難な物体検出データセット(VisDrone2019-DETとTinyPerson)に対する有効性を評価する。
計算コストの低減を図りながら、最先端のピラミッドネットワークよりも優れたCFPTの有効性を示す大規模な実験を行った。
コードはhttps://github.com/duzw9311/CFPTで公開される。
関連論文リスト
- FCC: Fully Connected Correlation for Few-Shot Segmentation [11.277022867553658]
Few-shot segmentation (FSS) は、少数のサポートイメージとマスクのみを使用して、ターゲットオブジェクトをクエリイメージにセグメントすることを目的としている。
従来の手法では, 最終層や同層の特徴に対する画素レベルの相関関係から相関写像を作成することで, 事前情報を得る方法が試みられている。
サポート機能とクエリ機能の間にピクセルレベルの相関関係を統合するためにFCC(Fully Connected correlation)を導入する。
論文 参考訳(メタデータ) (2024-11-18T03:32:02Z) - Renormalized Connection for Scale-preferred Object Detection in Satellite Imagery [51.83786195178233]
我々は、効率的な特徴抽出の観点から再正規化群理論を実装するために、知識発見ネットワーク(KDN)を設計する。
KDN上の再正規化接続(RC)は、マルチスケール特徴の「相乗的焦点」を可能にする。
RCはFPNベースの検出器のマルチレベル特徴の分割・対数機構を幅広いスケールで予測されたタスクに拡張する。
論文 参考訳(メタデータ) (2024-09-09T13:56:22Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - SCTransNet: Spatial-channel Cross Transformer Network for Infrared Small Target Detection [46.049401912285134]
赤外線小ターゲット検出(IRSTD)は近年,U字型ニューラルモデルから大きな恩恵を受けている。
既存のテクニックは、ターゲットが背景と高い類似性を持つ場合に苦労する。
本稿では,空間チャネルクロストランスネットワーク(SCTransNet)を提案する。
論文 参考訳(メタデータ) (2024-01-28T06:41:15Z) - Cross-Spatial Pixel Integration and Cross-Stage Feature Fusion Based
Transformer Network for Remote Sensing Image Super-Resolution [13.894645293832044]
変換器を用いたモデルでは、リモートセンシング画像超解像(RSISR)の競合性能が示されている。
本稿では,RSISRのための新しいトランスアーキテクチャであるCross-Spatial Pixel IntegrationとCross-Stage Feature Fusion Based Transformer Network (SPIFFNet)を提案する。
提案手法は,画像全体のグローバル認知と理解を効果的に促進し,機能統合の効率化を図っている。
論文 参考訳(メタデータ) (2023-07-06T13:19:06Z) - TC-Net: Triple Context Network for Automated Stroke Lesion Segmentation [0.5482532589225552]
本稿では,空間的コンテキスト情報を中心として,新たなネットワークである Triple Context Network (TC-Net) を提案する。
我々のネットワークはオープンデータセットATLASで評価され、最高スコアは0.594、ハウスドルフ距離は27.005mm、平均対称性表面距離は7.137mmである。
論文 参考訳(メタデータ) (2022-02-28T11:12:16Z) - MD-CSDNetwork: Multi-Domain Cross Stitched Network for Deepfake
Detection [80.83725644958633]
現在のディープフェイク生成法では、偽画像やビデオの周波数スペクトルに識別的アーティファクトが残されている。
MD-CSDNetwork(MD-CSDNetwork)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T14:11:53Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - Cross-layer Feature Pyramid Network for Salient Object Detection [102.20031050972429]
本稿では,有能な物体検出における進行的融合を改善するために,新しいクロス層特徴ピラミッドネットワークを提案する。
レイヤごとの分散機能は、他のすべてのレイヤからセマンティクスと健全な詳細の両方を同時に所有し、重要な情報の損失を減らします。
論文 参考訳(メタデータ) (2020-02-25T14:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。