論文の概要: Pyramidal Adaptive Cross-Gating for Multimodal Detection
- arxiv url: http://arxiv.org/abs/2512.18291v1
- Date: Sat, 20 Dec 2025 09:32:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.272853
- Title: Pyramidal Adaptive Cross-Gating for Multimodal Detection
- Title(参考訳): 多モード検出のためのピラミッド適応クロスゲイティング
- Authors: Zidong Gu, Shoufu Tian,
- Abstract要約: PACGNetは、バックボーン内で深い融合を実行するように設計されたアーキテクチャである。
Pモジュールは、プログレッシブ階層的ゲーティング機構を通じて特徴階層を再構築する。
私たちのPACGNetは、mAP50スコアがそれぞれ81.7%と82.1%という、最先端のベンチマークを新たに設定しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object detection in aerial imagery is a critical task in applications such as UAV reconnaissance. Although existing methods have extensively explored feature interaction between different modalities, they commonly rely on simple fusion strategies for feature aggregation. This introduces two critical flaws: it is prone to cross-modal noise and disrupts the hierarchical structure of the feature pyramid, thereby impairing the fine-grained detection of small objects. To address this challenge, we propose the Pyramidal Adaptive Cross-Gating Network (PACGNet), an architecture designed to perform deep fusion within the backbone. To this end, we design two core components: the Symmetrical Cross-Gating (SCG) module and the Pyramidal Feature-aware Multimodal Gating (PFMG) module. The SCG module employs a bidirectional, symmetrical "horizontal" gating mechanism to selectively absorb complementary information, suppress noise, and preserve the semantic integrity of each modality. The PFMG module reconstructs the feature hierarchy via a progressive hierarchical gating mechanism. This leverages the detailed features from a preceding, higher-resolution level to guide the fusion at the current, lower-resolution level, effectively preserving fine-grained details as features propagate. Through evaluations conducted on the DroneVehicle and VEDAI datasets, our PACGNet sets a new state-of-the-art benchmark, with mAP50 scores reaching 81.7% and 82.1% respectively.
- Abstract(参考訳): 空中画像における物体検出は、UAV偵察などの応用において重要な課題である。
既存の手法は様々なモーダル間の特徴相互作用を広範囲に研究してきたが、それらは通常、特徴集約のための単純な融合戦略に依存している。
これは2つの重大な欠陥をもたらす: クロスモーダルノイズが発生しやすく、特徴ピラミッドの階層構造を乱すため、小さな物体のきめ細かい検出を損なう。
この課題に対処するため、我々は、バックボーン内で深い融合を行うように設計されたアーキテクチャであるPraamidal Adaptive Cross-Gating Network (PACGNet)を提案する。
そこで我々は,Symmetrical Cross-Gating (SCG) モジュールとMaraamidal Feature-Aware Multimodal Gating (PFMG) モジュールの2つのコアコンポーネントを設計した。
SCGモジュールは双方向で対称的な「水平」ゲーティング機構を使用して、補完情報を選択的に吸収し、ノイズを抑え、各モダリティのセマンティックな整合性を維持する。
PFMGモジュールは、プログレッシブ階層的ゲーティング機構を介して特徴階層を再構築する。
これは、前の高分解能レベルからの詳細な特徴を活用して、現在の低分解能レベルでの融合を誘導し、特徴が伝播するにつれて、効果的にきめ細かい詳細を保存する。
DroneVehicleデータセットとVEDAIデータセットで実施された評価を通じて、PACGNetは、それぞれ81.7%と82.1%のmAP50スコアで、新しい最先端ベンチマークを設定しました。
関連論文リスト
- DEPFusion: Dual-Domain Enhancement and Priority-Guided Mamba Fusion for UAV Multispectral Object Detection [6.4402018224356015]
DEPFusionというフレームワークがUAVマルチスペクトル物体検出のために提案されている。
デュアルドメイン強化(DDE)と優先誘導マンバ核融合(PGMF)から構成される。
DroneVehicleとVEDAIデータセットの実験は、DEPFusionが最先端の手法で優れたパフォーマンスを達成することを実証している。
論文 参考訳(メタデータ) (2025-09-09T01:51:57Z) - Multispectral State-Space Feature Fusion: Bridging Shared and Cross-Parametric Interactions for Object Detection [48.04749955821739]
MS2Fusionと呼ばれる新しいマルチスペクトル状態空間特徴融合フレームワークが提案されている。
MS2フュージョンはデュアルパスパラメトリック相互作用機構を通じて効率的かつ効果的な融合を実現する。
我々のMS2Fusionは、主要なベンチマーク実験において、他の最先端のマルチスペクトルオブジェクト検出方法よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-07-19T14:38:03Z) - A Refreshed Similarity-based Upsampler for Direct High-Ratio Feature Upsampling [54.05517338122698]
一般的な類似性に基づく機能アップサンプリングパイプラインが提案されている。
本稿では,セマンティック・アウェアとディテール・アウェアの両方の観点から,明示的に制御可能なクエリキー機能アライメントを提案する。
我々は,モーザイクアーティファクトを緩和する上ではシンプルだが有効であるHR特徴に対して,きめ細かな近傍選択戦略を開発する。
論文 参考訳(メタデータ) (2024-07-02T14:12:21Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Feature Aggregation and Propagation Network for Camouflaged Object
Detection [42.33180748293329]
カモフラージュされたオブジェクト検出(COD)は、環境に埋め込まれたカモフラージュされたオブジェクトを検出し、分離することを目的としている。
いくつかのCOD法が開発されているが, 前景オブジェクトと背景環境との固有の類似性により, 依然として不満足な性能に悩まされている。
カモフラージュされた物体検出のための新しい特徴集約・伝播ネットワーク(FAP-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:54:28Z) - Semantic-aligned Fusion Transformer for One-shot Object Detection [18.58772037047498]
ワンショットオブジェクト検出は、与えられた1つのインスタンスに従って新しいオブジェクトを検出することを目的としている。
現在のアプローチでは、直接転送可能なメタ知識を得るために様々な特徴融合を探索している。
本稿では,これらの問題を解決するために,Semantic-aligned Fusion Transformer (SaFT) というシンプルなアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:38:47Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - Cross-layer Feature Pyramid Network for Salient Object Detection [102.20031050972429]
本稿では,有能な物体検出における進行的融合を改善するために,新しいクロス層特徴ピラミッドネットワークを提案する。
レイヤごとの分散機能は、他のすべてのレイヤからセマンティクスと健全な詳細の両方を同時に所有し、重要な情報の損失を減らします。
論文 参考訳(メタデータ) (2020-02-25T14:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。