論文の概要: DFIR-DETR: Frequency Domain Enhancement and Dynamic Feature Aggregation for Cross-Scene Small Object Detection
- arxiv url: http://arxiv.org/abs/2512.07078v1
- Date: Mon, 08 Dec 2025 01:25:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.669436
- Title: DFIR-DETR: Frequency Domain Enhancement and Dynamic Feature Aggregation for Cross-Scene Small Object Detection
- Title(参考訳): DFIR-DETR:クロスシーン小物体検出のための周波数領域拡張と動的特徴集約
- Authors: Bo Gao, Jingcheng Tong, Xingsheng Chen, Han Yu, Zichen Li,
- Abstract要約: UAVリモートセンシング画像の小型物体検出は困難である。
現在の変圧器ベースの検出器は、3つの重要な問題に悩まされている。
本稿ではDFIR-DETRを導入し,周波数領域処理と組み合わせた動的特徴集約手法を提案する。
- 参考スコア(独自算出の注目度): 16.16000521213211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting small objects in UAV remote sensing images and identifying surface defects in industrial inspection remain difficult tasks. These applications face common obstacles: features are sparse and weak, backgrounds are cluttered, and object scales vary dramatically. Current transformer-based detectors, while powerful, struggle with three critical issues. First, features degrade severely as networks downsample progressively. Second, spatial convolutions cannot capture long-range dependencies effectively. Third, standard upsampling methods inflate feature maps unnecessarily. We introduce DFIR-DETR to tackle these problems through dynamic feature aggregation combined with frequency-domain processing. Our architecture builds on three novel components. The DCFA module uses dynamic K-sparse attention, cutting complexity from O(N2) down to O(NK), and employs spatial gated linear units for better nonlinear modeling. The DFPN module applies amplitude-normalized upsampling to prevent feature inflation and uses dual-path shuffle convolution to retain spatial details across scales. The FIRC3 module operates in the frequency domain, achieving global receptive fields without sacrificing efficiency. We tested our method extensively on NEU-DET and VisDrone datasets. Results show mAP50 scores of 92.9% and 51.6% respectively-both state-of-the-art. The model stays lightweight with just 11.7M parameters and 41.2 GFLOPs. Strong performance across two very different domains confirms that DFIR-DETR generalizes well and works effectively in resource-limited settings for cross-scene small object detection.
- Abstract(参考訳): UAVリモートセンシング画像における小さな物体の検出と産業検査における表面欠陥の同定は依然として難しい課題である。
機能はスパースで弱く、背景は散らばり、オブジェクトのスケールは劇的に変化する。
現在の変圧器ベースの検出器は強力だが、3つの重要な問題に悩まされている。
まず、ネットワークが徐々にダウンするにつれて機能が大幅に低下する。
第二に、空間的畳み込みは長距離依存を効果的に捉えることができない。
第3に、標準的なアップサンプリングメソッドは、不要にフィーチャーマップをインフレーションする。
本稿ではDFIR-DETRを導入し,周波数領域処理と組み合わせた動的特徴集約手法を提案する。
私たちのアーキテクチャは3つの新しいコンポーネントの上に構築されます。
DCFAモジュールは動的Kスパースアテンションを使用し、O(N2) から O(NK) への複雑性を減らし、より優れた非線形モデリングのために空間ゲート線形ユニットを使用する。
DFPNモジュールは振幅正規化アップサンプリングを適用して特徴インフレーションを防止し、デュアルパスシャッフル畳み込みを用いて空間的詳細をスケールにわたって保持する。
FIRC3モジュールは周波数領域で動作し、効率を犠牲にすることなくグローバルな受容場を実現する。
NEU-DET と VisDrone のデータセットを用いて実験を行った。
結果は、mAP50のスコアが92.9%、51.6%であることを示している。
モデルは1.7Mパラメータと41.2 GFLOPで軽量である。
2つの非常に異なる領域にわたる強い性能は、DFIR-DETRが一般化し、クロスシーンの小さなオブジェクト検出のためのリソース制限設定で効果的に機能することを確認する。
関連論文リスト
- FMC-DETR: Frequency-Decoupled Multi-Domain Coordination for Aerial-View Object Detection [18.023418423273082]
本研究では,FMC-DETRを提案する。FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR。
まず、大域的低周波文脈知覚を高めるために、カスケードウェーブレット変換を適用したWavelet Kolmogorov-Arnold Transformer (WeKat) のバックボーンを導入する。
次に、軽量なクロスステージ部分核融合(CPF)モジュールは冗長性を低減し、マルチスケールの機能相互作用を改善する。
最後に,Multi-Domain Feature Coordination (MDFC)モジュールについて述べる。
論文 参考訳(メタデータ) (2025-09-27T02:28:22Z) - Wavelet-Guided Dual-Frequency Encoding for Remote Sensing Change Detection [67.84730634802204]
リモートセンシング画像の変化検出は,自然災害監視,都市拡張追跡,インフラ管理など,さまざまな工学的応用において重要な役割を担っている。
既存のほとんどの手法は空間領域モデリングに依存しており、特徴表現の限られた多様性は微妙な変化領域の検出を妨げる。
本研究では、特にウェーブレット領域における周波数領域の特徴モデリングが周波数成分の微細な違いを増幅し、空間領域において捉えにくいエッジ変化の知覚を高めることを観察する。
論文 参考訳(メタデータ) (2025-08-07T11:14:16Z) - ARFC-WAHNet: Adaptive Receptive Field Convolution and Wavelet-Attentive Hierarchical Network for Infrared Small Target Detection [2.643590634429843]
ARFC-WAHNetは、赤外線小ターゲット検出のための適応型受容野畳み込みおよびウェーブレット減衰階層ネットワークである。
ARFC-WAHNetは、検出精度とロバスト性の両方において、最近の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-05-15T09:44:23Z) - An Efficient Aerial Image Detection with Variable Receptive Fields [0.0]
3つの鍵成分を組み込んだ変圧器型検出器を提案する。
VRF-DETRは51.4%のmAPtextsubscript50と31.8%のmAPtextsubscript50:95を13.5Mパラメータで達成している。
論文 参考訳(メタデータ) (2025-04-21T15:16:13Z) - Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z) - DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-01-15T09:31:58Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - CAINNFlow: Convolutional block Attention modules and Invertible Neural
Networks Flow for anomaly detection and localization tasks [28.835943674247346]
本研究では, CBAMを組み込んだ複雑な関数モデルの設計を行い, 空間構造情報の保持と抽出を効果的に行うことができる。
CAINNFlowは,CNNとTransformerのバックボーンネットワークを特徴抽出器として,高度な精度と推論効率を実現する。
論文 参考訳(メタデータ) (2022-06-04T13:45:08Z) - SALISA: Saliency-based Input Sampling for Efficient Video Object
Detection [58.22508131162269]
ビデオオブジェクト検出のための新しい一様SALiencyベースの入力SAmpling技術であるSALISAを提案する。
SALISAは小物体の検出を著しく改善することを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。