論文の概要: Cross-Layer Feature Pyramid Transformer for Small Object Detection in Aerial Images
- arxiv url: http://arxiv.org/abs/2407.19696v1
- Date: Mon, 29 Jul 2024 04:40:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 15:06:20.329830
- Title: Cross-Layer Feature Pyramid Transformer for Small Object Detection in Aerial Images
- Title(参考訳): 空中画像における小型物体検出用クロス層型ピラミッド変圧器
- Authors: Zewen Du, Zhenjiang Hu, Guiyu Zhao, Ying Jin, Hongbin Ma,
- Abstract要約: 空中画像における物体検出は、通常、物体のサイズが小さいため、常に困難な作業であった。
現在の検出器の多くは新しい検出フレームワークを優先しており、しばしば特徴ピラミッドネットワークのような基本的なコンポーネントの研究を見落としている。
空中画像における小物体検出に特化して設計された新しいアップサンプラーフリー特徴ピラミッドネットワークであるCFPT(Cross-Layer Feature Pyramid Transformer)を紹介する。
- 参考スコア(独自算出の注目度): 5.652171904017473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object detection in aerial images has always been a challenging task due to the generally small size of the objects. Most current detectors prioritize novel detection frameworks, often overlooking research on fundamental components such as feature pyramid networks. In this paper, we introduce the Cross-Layer Feature Pyramid Transformer (CFPT), a novel upsampler-free feature pyramid network designed specifically for small object detection in aerial images. CFPT incorporates two meticulously designed attention blocks with linear computational complexity: the Cross-Layer Channel-Wise Attention (CCA) and the Cross-Layer Spatial-Wise Attention (CSA). CCA achieves cross-layer interaction by dividing channel-wise token groups to perceive cross-layer global information along the spatial dimension, while CSA completes cross-layer interaction by dividing spatial-wise token groups to perceive cross-layer global information along the channel dimension. By integrating these modules, CFPT enables cross-layer interaction in one step, thereby avoiding the semantic gap and information loss associated with element-wise summation and layer-by-layer transmission. Furthermore, CFPT incorporates global contextual information, which enhances detection performance for small objects. To further enhance location awareness during cross-layer interaction, we propose the Cross-Layer Consistent Relative Positional Encoding (CCPE) based on inter-layer mutual receptive fields. We evaluate the effectiveness of CFPT on two challenging object detection datasets in aerial images, namely VisDrone2019-DET and TinyPerson. Extensive experiments demonstrate the effectiveness of CFPT, which outperforms state-of-the-art feature pyramid networks while incurring lower computational costs. The code will be released at https://github.com/duzw9311/CFPT.
- Abstract(参考訳): 空中画像における物体検出は、通常、物体のサイズが小さいため、常に困難な作業であった。
現在の検出器の多くは新しい検出フレームワークを優先しており、しばしば特徴ピラミッドネットワークのような基本的なコンポーネントの研究を見落としている。
本稿では,空中画像における小物体検出に特化して設計された,新しいアップサンプラーレス特徴ピラミッドネットワークであるCFPTについて紹介する。
CFPTには、CCA(Cross-Layer Channel-Wise Attention)とCSA(Cross-Layer Space-Wise Attention)という2つの細心の注意ブロックが組み込まれている。
CCAは、チャネル単位のトークン群を分割して、空間次元に沿った層間グローバル情報を知覚し、CSAは、チャネル次元に沿った層間グローバル情報を知覚することで、層間インタラクションを実現する。
これらのモジュールを統合することで、CFPTは1ステップで層間相互作用を可能にし、要素の和や層間伝達に関連する意味的ギャップや情報損失を回避することができる。
さらに、CFPTにはグローバルなコンテキスト情報が含まれており、小さなオブジェクトに対する検出性能が向上する。
層間相互作用における位置認識をさらに高めるため,層間相互受容場に基づくCCPE(Cross-Layer Consistent Relative Positional Encoding)を提案する。
CFPTの空中画像における2つの困難な物体検出データセット(VisDrone2019-DETとTinyPerson)に対する有効性を評価する。
計算コストの低減を図りながら、最先端のピラミッドネットワークよりも優れたCFPTの有効性を示す大規模な実験を行った。
コードはhttps://github.com/duzw9311/CFPTで公開される。
関連論文リスト
- FIPGNet:Pyramid grafting network with feature interaction strategies [0.0]
本稿では,特徴相互作用戦略を持つピラミッドグラフトネットワークである新しいサリエンスオブジェクト検出フレームワーク (FIPGNet) を提案する。
具体的には,空間エージェントのクロスアテンションを革新的に導入する,注目機構に基づく機能インタラクション戦略(FIA)を提案する。
提案手法は,4つの指標に対して,現在の12個の有意な物体検出法より優れていた。
論文 参考訳(メタデータ) (2024-07-04T17:53:37Z) - SCTransNet: Spatial-channel Cross Transformer Network for Infrared Small Target Detection [46.049401912285134]
赤外線小ターゲット検出(IRSTD)は近年,U字型ニューラルモデルから大きな恩恵を受けている。
既存のテクニックは、ターゲットが背景と高い類似性を持つ場合に苦労する。
本稿では,空間チャネルクロストランスネットワーク(SCTransNet)を提案する。
論文 参考訳(メタデータ) (2024-01-28T06:41:15Z) - Cross-Spatial Pixel Integration and Cross-Stage Feature Fusion Based
Transformer Network for Remote Sensing Image Super-Resolution [13.894645293832044]
変換器を用いたモデルでは、リモートセンシング画像超解像(RSISR)の競合性能が示されている。
本稿では,RSISRのための新しいトランスアーキテクチャであるCross-Spatial Pixel IntegrationとCross-Stage Feature Fusion Based Transformer Network (SPIFFNet)を提案する。
提案手法は,画像全体のグローバル認知と理解を効果的に促進し,機能統合の効率化を図っている。
論文 参考訳(メタデータ) (2023-07-06T13:19:06Z) - TC-Net: Triple Context Network for Automated Stroke Lesion Segmentation [0.5482532589225552]
本稿では,空間的コンテキスト情報を中心として,新たなネットワークである Triple Context Network (TC-Net) を提案する。
我々のネットワークはオープンデータセットATLASで評価され、最高スコアは0.594、ハウスドルフ距離は27.005mm、平均対称性表面距離は7.137mmである。
論文 参考訳(メタデータ) (2022-02-28T11:12:16Z) - MD-CSDNetwork: Multi-Domain Cross Stitched Network for Deepfake
Detection [80.83725644958633]
現在のディープフェイク生成法では、偽画像やビデオの周波数スペクトルに識別的アーティファクトが残されている。
MD-CSDNetwork(MD-CSDNetwork)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T14:11:53Z) - Bi-Dimensional Feature Alignment for Cross-Domain Object Detection [71.85594342357815]
教師なしクロスドメイン検出モデルを提案する。
ソースドメインのアノテーション付きデータを利用して、異なるターゲットドメインに対してオブジェクト検出器をトレーニングする。
提案モデルでは、オブジェクト検出のためのクロスドメイン表現のばらつきを緩和する。
論文 参考訳(メタデータ) (2020-11-14T03:03:11Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - Cross-layer Feature Pyramid Network for Salient Object Detection [102.20031050972429]
本稿では,有能な物体検出における進行的融合を改善するために,新しいクロス層特徴ピラミッドネットワークを提案する。
レイヤごとの分散機能は、他のすべてのレイヤからセマンティクスと健全な詳細の両方を同時に所有し、重要な情報の損失を減らします。
論文 参考訳(メタデータ) (2020-02-25T14:06:27Z) - Saliency Enhancement using Gradient Domain Edges Merging [65.90255950853674]
本研究では,エッジとサリエンシマップをマージして,サリエンシマップの性能を向上させる手法を開発した。
これにより、DUT-OMRONデータセットの少なくとも3.4倍の平均的な改善により、エッジ(SEE)を使用したサリエンシ向上が提案された。
SEEアルゴリズムは前処理のためのSEE-Preと後処理のためのSEE-Postの2つの部分に分けられる。
論文 参考訳(メタデータ) (2020-02-11T14:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。