論文の概要: DenSe-AdViT: A novel Vision Transformer for Dense SAR Object Detection
- arxiv url: http://arxiv.org/abs/2504.13638v1
- Date: Fri, 18 Apr 2025 11:25:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 15:55:34.898438
- Title: DenSe-AdViT: A novel Vision Transformer for Dense SAR Object Detection
- Title(参考訳): DenSe-AdViT:Dense SARオブジェクト検出のための新しい視覚変換器
- Authors: Yang Zhang, Jingyi Cao, Yanan You, Yuanyuan Qiao,
- Abstract要約: 視覚変換器(ViT)は合成開口レーダ(SAR)画像の物体検出において顕著な結果を得た。
しかし、マルチスケールの局所的な特徴の抽出に苦慮し、小さなターゲットを検出する性能が制限された。
本稿では,高密度SARターゲット検出のための適応トークン(DenSe-AdViT)を用いた密度感性視覚変換器を提案する。
- 参考スコア(独自算出の注目度): 6.132395411070981
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformer (ViT) has achieved remarkable results in object detection for synthetic aperture radar (SAR) images, owing to its exceptional ability to extract global features. However, it struggles with the extraction of multi-scale local features, leading to limited performance in detecting small targets, especially when they are densely arranged. Therefore, we propose Density-Sensitive Vision Transformer with Adaptive Tokens (DenSe-AdViT) for dense SAR target detection. We design a Density-Aware Module (DAM) as a preliminary component that generates a density tensor based on target distribution. It is guided by a meticulously crafted objective metric, enabling precise and effective capture of the spatial distribution and density of objects. To integrate the multi-scale information enhanced by convolutional neural networks (CNNs) with the global features derived from the Transformer, Density-Enhanced Fusion Module (DEFM) is proposed. It effectively refines attention toward target-survival regions with the assist of density mask and the multiple sources features. Notably, our DenSe-AdViT achieves 79.8% mAP on the RSDD dataset and 92.5% on the SIVED dataset, both of which feature a large number of densely distributed vehicle targets.
- Abstract(参考訳): Vision Transformer (ViT) は、合成開口レーダ(SAR)画像のオブジェクト検出において、グローバルな特徴を抽出する異常な能力のため、顕著な成果を上げている。
しかし、マルチスケールの局所的な特徴の抽出に苦慮し、特に密集した配列において、小さなターゲットの検出性能が制限された。
そこで我々は,高密度SARターゲット検出のための適応トークン(DenSe-AdViT)を用いた密度感性視覚変換器を提案する。
対象分布に基づいて密度テンソルを生成する予備成分として密度認識モジュール(DAM)を設計する。
厳密に製作された客観的な計量によってガイドされ、空間分布と物体の密度を正確にかつ効果的に捉えることができる。
畳み込みニューラルネットワーク(CNN)によって強化されたマルチスケール情報と変換器から得られるグローバルな特徴を統合するため、密度拡張融合モジュール(DEFM)を提案する。
これは、密度マスクと複数の情報源の特徴の助けを借りて、効果的に目標生存地域への注意を喚起する。
特に、当社のDenSe-AdViTはRSDDデータセットで79.8%mAP、SIVEDデータセットで92.5%を達成しています。
関連論文リスト
- Density-based Object Detection in Crowded Scenes [54.037103707572136]
密度誘導型アンカー(DGA)と密度誘導型NMS(DG-NMS)を提案する。
DGAは最適なアンカー割り当てとリウィーリング、および適応的なNMSを計算する。
Citypersonsデータセットを用いたCrowdHumanデータセットの挑戦実験により、提案した密度誘導検出器は、混雑に対して有効で堅牢であることが示された。
論文 参考訳(メタデータ) (2025-04-14T02:41:49Z) - Efficient Feature Fusion for UAV Object Detection [9.632727117779178]
特に小さな物体は画像のごく一部を占めており、正確な検出を困難にしている。
既存のマルチスケール機能融合手法は、様々な解像度で機能を集約することでこれらの課題に対処する。
本稿では,UAVオブジェクト検出タスクに特化して設計された新しい機能融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-29T20:39:16Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Better Sampling, towards Better End-to-end Small Object Detection [7.7473020808686694]
限られた特性と高密度と相互重なり合いのため、小さな物体検出は不満足なままである。
エンド・ツー・エンド・フレームワークにおけるサンプリングの強化手法を提案する。
我々のモデルは、VisDroneデータセット上での最先端(SOTA)よりも平均精度(AP)が2.9%向上することを示す。
論文 参考訳(メタデータ) (2024-05-17T04:37:44Z) - Salient Object Detection in Optical Remote Sensing Images Driven by
Transformer [69.22039680783124]
光リモートセンシング画像(ORSI-SOD)のためのGlobal extract Local Exploration Network(GeleNet)を提案する。
具体的には、GeleNetはまずトランスフォーマーバックボーンを採用し、グローバルな長距離依存関係を持つ4レベルの機能埋め込みを生成する。
3つの公開データセットに関する大規模な実験は、提案されたGeleNetが関連する最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2023-09-15T07:14:43Z) - DFR-Net: Density Feature Refinement Network for Image Dehazing Utilizing
Haze Density Difference [0.6165605009782557]
画像デハジングタスクでは、ヘイズ密度が重要な特徴であり、デハジング手法の性能に影響を与える。
本稿では,密度差からヘイズ密度特徴を抽出する密度特徴再構成ネットワーク(DFR-Net)を提案する。
論文 参考訳(メタデータ) (2023-07-26T02:53:29Z) - Context-Preserving Instance-Level Augmentation and Deformable
Convolution Networks for SAR Ship Detection [50.53262868498824]
ランダムな方向と部分的な情報損失によるSAR画像のターゲット形状の変形は、SAR船の検出において必須の課題である。
ターゲット内の部分的な情報損失に頑健なディープネットワークをトレーニングするためのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-02-14T07:01:01Z) - RRNet: Relational Reasoning Network with Parallel Multi-scale Attention
for Salient Object Detection in Optical Remote Sensing Images [82.1679766706423]
光リモートセンシング画像(RSI)のためのSODは、光学RSIから視覚的に特徴的な物体や領域を探索・抽出することを目的としている。
光学RSIにおけるSODに並列なマルチスケールアテンションを持つリレーショナル推論ネットワークを提案する。
提案するRRNetは,既存の最先端SODコンペティタよりも質的,定量的に優れている。
論文 参考訳(メタデータ) (2021-10-27T07:18:32Z) - AdaZoom: Adaptive Zoom Network for Multi-Scale Object Detection in Large
Scenes [57.969186815591186]
大規模なシーンの検出は、小さなオブジェクトと極端なスケールの変動のために難しい問題である。
本稿では,物体検出のための焦点領域を適応的に拡大するために,フレキシブルな形状と焦点長を有する選択的拡大器として,新しい適応型Zoom(AdaZoom)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-19T03:30:22Z) - Dense Multiscale Feature Fusion Pyramid Networks for Object Detection in
UAV-Captured Images [0.09065034043031667]
本研究では,よりリッチな特徴を可能な限り得ることを目的とした,高密度多スケール特徴融合ピラミッドネットワーク(dmffpn)と呼ばれる新しい手法を提案する。
具体的には、密度の高い接続は、異なる畳み込み層からの表現を完全に活用するように設計されている。
VisDrone-DETと呼ばれるドローンベースのデータセットの実験は、我々の方法の競争力を示唆している。
論文 参考訳(メタデータ) (2020-12-19T10:05:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。