論文の概要: FMC-DETR: Frequency-Decoupled Multi-Domain Coordination for Aerial-View Object Detection
- arxiv url: http://arxiv.org/abs/2509.23056v1
- Date: Sat, 27 Sep 2025 02:28:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.014786
- Title: FMC-DETR: Frequency-Decoupled Multi-Domain Coordination for Aerial-View Object Detection
- Title(参考訳): FMC-DETR:空中物体検出のための周波数分離型マルチドメイン座標
- Authors: Ben Liang, Yuan Liu, Bingwen Qiu, Yihong Wang, Xiubao Sui, Qian Chen,
- Abstract要約: 本研究では,FMC-DETRを提案する。FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR。
まず、大域的低周波文脈知覚を高めるために、カスケードウェーブレット変換を適用したWavelet Kolmogorov-Arnold Transformer (WeKat) のバックボーンを導入する。
次に、軽量なクロスステージ部分核融合(CPF)モジュールは冗長性を低減し、マルチスケールの機能相互作用を改善する。
最後に,Multi-Domain Feature Coordination (MDFC)モジュールについて述べる。
- 参考スコア(独自算出の注目度): 18.023418423273082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aerial-view object detection is a critical technology for real-world applications such as natural resource monitoring, traffic management, and UAV-based search and rescue. Detecting tiny objects in high-resolution aerial imagery presents a long-standing challenge due to their limited visual cues and the difficulty of modeling global context in complex scenes. Existing methods are often hampered by delayed contextual fusion and inadequate non-linear modeling, failing to effectively use global information to refine shallow features and thus encountering a performance bottleneck. To address these challenges, we propose FMC-DETR, a novel framework with frequency-decoupled fusion for aerial-view object detection. First, we introduce the Wavelet Kolmogorov-Arnold Transformer (WeKat) backbone, which applies cascaded wavelet transforms to enhance global low-frequency context perception in shallow features while preserving fine-grained details, and employs Kolmogorov-Arnold networks to achieve adaptive non-linear modeling of multi-scale dependencies. Next, a lightweight Cross-stage Partial Fusion (CPF) module reduces redundancy and improves multi-scale feature interaction. Finally, we introduce the Multi-Domain Feature Coordination (MDFC) module, which unifies spatial, frequency, and structural priors to to balance detail preservation and global enhancement. Extensive experiments on benchmark aerial-view datasets demonstrate that FMC-DETR achieves state-of-the-art performance with fewer parameters. On the challenging VisDrone dataset, our model achieves improvements of 6.5% AP and 8.2% AP50 over the baseline, highlighting its effectiveness in tiny object detection. The code can be accessed at https://github.com/bloomingvision/FMC-DETR.
- Abstract(参考訳): 航空ビューオブジェクト検出は、自然資源監視、交通管理、UAVベースの捜索救助など、現実世界のアプリケーションにとって重要な技術である。
高解像度の空中画像における微小物体の検出は、視覚的手がかりが限られており、複雑な場面でグローバルな文脈をモデル化することが困難であることから、長年にわたる課題となっている。
既存の手法は、しばしば遅延した文脈融合と不適切な非線形モデリングによって妨げられる。
これらの課題に対処するため,FMC-DETRを提案する。
まず、ウェーブレット・コルモゴロフ・アルノルド変換器(WeKat)のバックボーンを導入し、細粒度を保ちながら浅い特徴における大域的低周波文脈知覚を高めるためにカスケードウェーブレット変換を適用し、マルチスケール依存関係の適応非線形モデリングを実現するためにコルモゴロフ・アルノルドネットワークを用いる。
次に、軽量なクロスステージ部分核融合(CPF)モジュールは冗長性を低減し、マルチスケールの機能相互作用を改善する。
最後に、細部保存とグローバル拡張のバランスをとるために、空間、周波数、構造的事前を統一するMDFC(Multi-Domain Feature Coordination)モジュールを導入する。
ベンチマーク空中ビューデータセットの大規模な実験により、FMC-DETRはより少ないパラメータで最先端のパフォーマンスを達成することが示された。
挑戦的なVisDroneデータセットでは、ベースライン上でのAP6.5%、AP508.2%の改善を実現し、小さなオブジェクト検出の有効性を強調した。
コードはhttps://github.com/bloomingvision/FMC-DETRでアクセスできる。
関連論文リスト
- High-Frequency Semantics and Geometric Priors for End-to-End Detection Transformers in Challenging UAV Imagery [4.833513511627847]
無人航空機による物体検出(UAV-OD)は、小型の目標サイズ、高密度分布、UAV画像の散在した背景など、重大な課題に直面している。
本稿では,UAVに適した拡張リアルタイム検出トランスフォーマフレームワークHEGS-DETRを提案する。
VisDroneデータセットの実験では、HEGS-DETRはベースライン上で5.1%のAP50と3.8%のAP増加を達成する一方で、リアルタイム速度を維持し、パラメータ数を4M削減している。
論文 参考訳(メタデータ) (2025-07-01T14:56:56Z) - MGDFIS: Multi-scale Global-detail Feature Integration Strategy for Small Object Detection [12.838872442435527]
UAV画像の小さな物体検出は、探索・救助、交通監視、環境監視といった用途に不可欠である。
既存のマルチスケール融合法は、計算負荷を増し、詳細をぼかすのに役立つ。
本稿では,グローバルコンテキストと局所的な詳細を密結合して検出性能を向上させる統合融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-15T02:54:25Z) - AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。
AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - Efficient Oriented Object Detection with Enhanced Small Object Recognition in Aerial Images [2.9138705529771123]
本稿では,オブジェクト指向物体検出タスクに適したYOLOv8モデルを新たに拡張する。
本モデルでは,ASFP(Adaptive Scale Feature Pyramid)モジュールと,P2層の詳細を利用したウェーブレット変換に基づくC2fモジュールを特徴とする。
我々のアプローチは233万のパラメータを持つDecoupleNetよりも効率的なアーキテクチャ設計を提供し、検出精度を維持しています。
論文 参考訳(メタデータ) (2024-12-17T05:45:48Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。