論文の概要: Cross-Layer Feature Self-Attention Module for Multi-Scale Object Detection
- arxiv url: http://arxiv.org/abs/2510.14726v1
- Date: Thu, 16 Oct 2025 14:25:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.898902
- Title: Cross-Layer Feature Self-Attention Module for Multi-Scale Object Detection
- Title(参考訳): マルチスケール物体検出のためのクロスレイア機能自己認識モジュール
- Authors: Dingzhou Xie, Rushi Lan, Cheng Pang, Enhao Ning, Jiahao Zeng, Wei Zheng,
- Abstract要約: Cross-Layer Feature Self-Attention Module (CFSAM)
CFSAMは、マルチスケールの機能マップ内のローカルとグローバルの両方の依存関係をホリスティックにモデル化する。
SSD300フレームワークに統合されると、CFSAMは検出性能を大幅に向上する。
- 参考スコア(独自算出の注目度): 14.148258708632211
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent object detection methods have made remarkable progress by leveraging attention mechanisms to improve feature discriminability. However, most existing approaches are confined to refining single-layer or fusing dual-layer features, overlooking the rich inter-layer dependencies across multi-scale representations. This limits their ability to capture comprehensive contextual information essential for detecting objects with large scale variations. In this paper, we propose a novel Cross-Layer Feature Self-Attention Module (CFSAM), which holistically models both local and global dependencies within multi-scale feature maps. CFSAM consists of three key components: a convolutional local feature extractor, a Transformer-based global modeling unit that efficiently captures cross-layer interactions, and a feature fusion mechanism to restore and enhance the original representations. When integrated into the SSD300 framework, CFSAM significantly boosts detection performance, achieving 78.6% mAP on PASCAL VOC (vs. 75.5% baseline) and 52.1% mAP on COCO (vs. 43.1% baseline), outperforming existing attention modules. Moreover, the module accelerates convergence during training without introducing substantial computational overhead. Our work highlights the importance of explicit cross-layer attention modeling in advancing multi-scale object detection.
- Abstract(参考訳): 近年の物体検出法は,注目機構を利用して特徴識別性を向上させることで顕著な進歩を遂げている。
しかし、既存のアプローチのほとんどは、マルチスケールの表現にまたがるリッチな層間依存関係を見越して、単一層を精細化したり、二重層を融合させたりすることに限られている。
これにより、大規模に変化するオブジェクトを検出するのに必要な、包括的なコンテキスト情報をキャプチャする能力が制限される。
本稿では,マルチスケール機能マップ内の局所的およびグローバルな依存関係を一意にモデル化したCFSAM(Cross-Layer Feature Self-Attention Module)を提案する。
CFSAMは、畳み込みローカル特徴抽出器(convolutional local feature extractor)、トランスフォーマーベースのグローバルモデリングユニット(transformer-based global modeling unit)、および元の表現を復元および拡張するための特徴融合機構( feature fusion mechanism)の3つの主要なコンポーネントから構成される。
SSD300フレームワークに統合されると、CFSAMは検出性能を大幅に向上し、PASCAL VOC(vs. 75.5%ベースライン)で78.6% mAP、COCO(vs.43.1%ベースライン)で52.1% mAPを達成した。
さらに、このモジュールは、かなりの計算オーバーヘッドを発生させることなく、トレーニング中の収束を加速する。
本研究は,マルチスケール物体検出の進展において,明示的な層間アテンションモデリングの重要性を強調した。
関連論文リスト
- Source-Free Object Detection with Detection Transformer [59.33653163035064]
Source-Free Object Detection (SFOD) は、ソースデータにアクセスすることなく、ソースドメインから教師なしのターゲットドメインへの知識転送を可能にする。
ほとんどの既存のSFODアプローチは、より高速なR-CNNのような従来のオブジェクト検出(OD)モデルに限られるか、新しいODアーキテクチャ、特に検出変換器(DETR)に適合しない一般的なソリューションとして設計されている。
本稿では,DTRのクエリ中心の機能強化を特化して設計された新しいSFODフレームワークであるFeature Reweighting ANd Contrastive Learning NetworK(FRANCK)を紹介する。
論文 参考訳(メタデータ) (2025-10-13T07:35:04Z) - LASFNet: A Lightweight Attention-Guided Self-Modulation Feature Fusion Network for Multimodal Object Detection [4.2649265429416445]
本稿では,単一機能レベルの核融合ユニットを用いて高速な核融合検出を行う新しい核融合検出ベースラインを提案する。
このアプローチに基づいて,軽量な注意誘導型自己変調機能融合ネットワーク(LASFNet)を提案する。
提案手法は, パラメータ数と計算コストを最大90%, 85%削減し, 良好な効率・精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2025-06-26T05:32:33Z) - CFMD: Dynamic Cross-layer Feature Fusion for Salient Object Detection [7.262250906929891]
クロス層機能ピラミッドネットワーク(CFPN)は,多層機能融合と境界詳細保存において顕著な進歩を遂げている。
これらの課題に対処するために,CFMDという,2つの重要なイノベーションを取り入れた,新しいクロスレイヤ機能ピラミッドネットワークを提案する。
まず,現在最先端のMambaアーキテクチャを組み込んで動的重み分布機構を構築するコンテキスト認識機能集約モジュール(CFLMA)を設計する。
第2に,分解能回復時に空間的詳細を保存する適応動的アップサンプリングユニット(CFLMD)を導入する。
論文 参考訳(メタデータ) (2025-04-02T03:22:36Z) - MSCA-Net:Multi-Scale Context Aggregation Network for Infrared Small Target Detection [0.1759252234439348]
本稿では,3つのキーコンポーネントを統合したMSCA-Netというネットワークアーキテクチャを提案する。
MSEDAは、異なるスケールにわたる情報を適応的に集約するために、マルチスケールのフュージョンアテンション機構を使用している。
PCBAMは相関行列に基づく戦略によりグローバル特徴と局所特徴の相関を捉える。
CABは、それらに重みを割り当て、低レベル情報と高レベル情報を統合することで、重要な特徴の表現を強化する。
論文 参考訳(メタデータ) (2025-03-21T14:42:31Z) - Multilateral Cascading Network for Semantic Segmentation of Large-Scale Outdoor Point Clouds [6.253217784798542]
Multilateral Cascading Network (MCNet)はこの課題に対処するために設計された。
MCNetは、Multilateral Cascading Attention Enhancement (MCAE)モジュールとPoint Cross Stage partial (P-CSP)モジュールの2つの主要なコンポーネントから構成されている。
その結果,mIoU全体では2.1%,小さめの対象カテゴリーでは平均15.9%の改善が得られた。
論文 参考訳(メタデータ) (2024-09-21T02:23:01Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Salient Object Detection in Optical Remote Sensing Images Driven by
Transformer [69.22039680783124]
光リモートセンシング画像(ORSI-SOD)のためのGlobal extract Local Exploration Network(GeleNet)を提案する。
具体的には、GeleNetはまずトランスフォーマーバックボーンを採用し、グローバルな長距離依存関係を持つ4レベルの機能埋め込みを生成する。
3つの公開データセットに関する大規模な実験は、提案されたGeleNetが関連する最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2023-09-15T07:14:43Z) - Feature Aggregation and Propagation Network for Camouflaged Object
Detection [42.33180748293329]
カモフラージュされたオブジェクト検出(COD)は、環境に埋め込まれたカモフラージュされたオブジェクトを検出し、分離することを目的としている。
いくつかのCOD法が開発されているが, 前景オブジェクトと背景環境との固有の類似性により, 依然として不満足な性能に悩まされている。
カモフラージュされた物体検出のための新しい特徴集約・伝播ネットワーク(FAP-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:54:28Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z) - Cross-layer Feature Pyramid Network for Salient Object Detection [102.20031050972429]
本稿では,有能な物体検出における進行的融合を改善するために,新しいクロス層特徴ピラミッドネットワークを提案する。
レイヤごとの分散機能は、他のすべてのレイヤからセマンティクスと健全な詳細の両方を同時に所有し、重要な情報の損失を減らします。
論文 参考訳(メタデータ) (2020-02-25T14:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。