論文の概要: FSDETR: Frequency-Spatial Feature Enhancement for Small Object Detection
- arxiv url: http://arxiv.org/abs/2604.14884v1
- Date: Thu, 16 Apr 2026 11:22:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.865828
- Title: FSDETR: Frequency-Spatial Feature Enhancement for Small Object Detection
- Title(参考訳): FSDETR:小物体検出のための周波数空間特徴強調
- Authors: Jianchao Huang, Fengming Zhang, Haibo Zhu, Tao Yan,
- Abstract要約: 小型オブジェクト検出は、ダウンサンプリングによる特徴劣化のため、依然として重要な課題である。
本稿では,RT-DETRベースライン上に構築された周波数空間特徴強調フレームワークFSDETRを提案する。
FSDETRのパラメータはわずか14.7Mであり、VisDrone 2019では13.9%、TinyPersonでは48.95%である。
- 参考スコア(独自算出の注目度): 1.5054442506653827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Small object detection remains a significant challenge due to feature degradation from downsampling, mutual occlusion in dense clusters, and complex background interference. To address these issues, this paper proposes FSDETR, a frequency-spatial feature enhancement framework built upon the RT-DETR baseline. By establishing a collaborative modeling mechanism, the method effectively leverages complementary structural information. Specifically, a Spatial Hierarchical Attention Block (SHAB) captures both local details and global dependencies to strengthen semantic representation. Furthermore, to mitigate occlusion in dense scenes, the Deformable Attention-based Intra-scale Feature Interaction (DA-AIFI) focuses on informative regions via dynamic sampling. Finally, the Frequency-Spatial Feature Pyramid Network (FSFPN) integrates frequency filtering with spatial edge extraction via the Cross-domain Frequency-Spatial Block (CFSB) to preserve fine-grained details. Experimental results show that with only 14.7M parameters, FSDETR achieves 13.9% APS on VisDrone 2019 and 48.95% AP50 tiny on TinyPerson, showing strong performance on small-object benchmarks. The code and models are available at https://github.com/YT3DVision/FSDETR.
- Abstract(参考訳): 小型物体検出は、ダウンサンプリングによる特徴劣化、密集クラスタにおける相互閉塞、複雑な背景干渉による重要な課題である。
本稿では,RT-DETRベースライン上に構築された周波数空間特徴強調フレームワークFSDETRを提案する。
協調モデリング機構を確立することにより、補完構造情報を効果的に活用する。
具体的には、空間階層的注意ブロック (Spatial Hierarchical Attention Block, SHAB) は、意味表現を強化するために、局所的な詳細とグローバルな依存関係の両方をキャプチャする。
さらに、密集したシーンにおける閉塞を軽減するために、変形可能な注意に基づく大規模特徴相互作用(DA-AIFI)は動的サンプリングによる情報領域に焦点を当てている。
最後に、周波数-空間特徴ピラミッドネットワーク(FSFPN)は、クロスドメイン周波数-空間ブロック(CFSB)を介して周波数フィルタリングと空間エッジ抽出を統合し、微細な詳細を保存する。
実験の結果、FSDETRは14.7Mのパラメータしか持たず、VisDrone 2019では13.9%、TinyPersonでは48.95%のAP50小ささを達成した。
コードとモデルはhttps://github.com/YT3DVision/FSDETRで公開されている。
関連論文リスト
- Frequency-Enhanced Dual-Subspace Networks for Few-Shot Fine-Grained Image Classification [6.738210148449625]
微粒化の少ない画像分類は,注釈付きサンプルの限られた数だけを用いて,視覚的類似度の高いサブカテゴリを認識することを目的としている。
既存のメトリック学習ベースの手法は、通常、空間的領域の特徴のみに依存する。
本稿では、周波数拡張デュアルサブスペースネットワーク(FEDSNet)を提案する。
論文 参考訳(メタデータ) (2026-04-16T12:54:29Z) - EFSI-DETR: Efficient Frequency-Semantic Integration for Real-Time Small Object Detection in UAV Imagery [10.339425380819513]
EFSI-DETRは、効率的な意味的特徴強調と動的周波数空間誘導を統合する新しい検出フレームワークである。
VisDrone と CODrone のベンチマーク実験により,我々の EFSI-DETR が実時間効率で最先端の性能を達成することを示した。
論文 参考訳(メタデータ) (2026-01-26T15:41:37Z) - DFIR-DETR: Frequency Domain Enhancement and Dynamic Feature Aggregation for Cross-Scene Small Object Detection [16.16000521213211]
UAVリモートセンシング画像の小型物体検出は困難である。
現在の変圧器ベースの検出器は、3つの重要な問題に悩まされている。
本稿ではDFIR-DETRを導入し,周波数領域処理と組み合わせた動的特徴集約手法を提案する。
論文 参考訳(メタデータ) (2025-12-08T01:25:10Z) - NAF: Zero-Shot Feature Upsampling via Neighborhood Attention Filtering [80.55691420311616]
隣り合う注意フィルタリング(NAF)は、クロススケールな隣り合う注意と回転位置埋め込み(RoPE)を通して、適応的な空間・コンテンツ重みを学習する
NAFはゼロショットを運用しており、再訓練せずにヴィジョン・ファンデーション・モデル(VFM)の機能をアップサンプルしている。
高効率を維持し、2Kのフィーチャーマップにスケーリングし、18 FPSで中間解像度マップを再構築する。
論文 参考訳(メタデータ) (2025-11-23T13:43:52Z) - FMC-DETR: Frequency-Decoupled Multi-Domain Coordination for Aerial-View Object Detection [18.023418423273082]
本研究では,FMC-DETRを提案する。FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR。
まず、大域的低周波文脈知覚を高めるために、カスケードウェーブレット変換を適用したWavelet Kolmogorov-Arnold Transformer (WeKat) のバックボーンを導入する。
次に、軽量なクロスステージ部分核融合(CPF)モジュールは冗長性を低減し、マルチスケールの機能相互作用を改善する。
最後に,Multi-Domain Feature Coordination (MDFC)モジュールについて述べる。
論文 参考訳(メタデータ) (2025-09-27T02:28:22Z) - FOAM: A General Frequency-Optimized Anti-Overlapping Framework for Overlapping Object Perception [7.258172311752019]
重なり合う物体知覚は、ランダムに重なり合う前景の特徴を分離し、背景の特徴を抑えつつ前景の特徴を抽出することを目的としている。
本稿では、よりテクスチャや輪郭情報を抽出する際のモデルを支援するために、一般周波数ベースのアンチオーバーラップフレームワーク(FOAM)を提案する。
具体的には、周波数空間変換器ブロック(FSTB)を設計し、周波数領域と空間領域の両方から特徴を同時に抽出し、ネットワークがフォアグラウンドからより多くのテクスチャ特徴をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2025-06-16T13:58:49Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z) - iffDetector: Inference-aware Feature Filtering for Object Detection [70.8678270164057]
Inference-aware Feature Filtering (IFF)モジュールを導入し、現代の検出器と簡単に組み合わせることができる。
IFFは、畳み込み機能を強化するためにハイレベルなセマンティクスを活用することでクローズドループ最適化を行う。
IFFはCNNベースの物体検出器とプラグアンドプレイ方式で融合でき、計算コストのオーバーヘッドは無視できる。
論文 参考訳(メタデータ) (2020-06-23T02:57:29Z) - Cross-layer Feature Pyramid Network for Salient Object Detection [102.20031050972429]
本稿では,有能な物体検出における進行的融合を改善するために,新しいクロス層特徴ピラミッドネットワークを提案する。
レイヤごとの分散機能は、他のすべてのレイヤからセマンティクスと健全な詳細の両方を同時に所有し、重要な情報の損失を減らします。
論文 参考訳(メタデータ) (2020-02-25T14:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。