論文の概要: YOLO-PRO: Enhancing Instance-Specific Object Detection with Full-Channel Global Self-Attention
- arxiv url: http://arxiv.org/abs/2503.02348v1
- Date: Tue, 04 Mar 2025 07:17:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:17:56.957918
- Title: YOLO-PRO: Enhancing Instance-Specific Object Detection with Full-Channel Global Self-Attention
- Title(参考訳): YOLO-PRO: 全チャネルグローバル自己認識によるインスタンス特化オブジェクト検出の実現
- Authors: Lin Huang, Yujuan Tan, Weisheng Li, Shitai Shan, Linlin Shen, Jing Yu,
- Abstract要約: 本稿では,オブジェクト検出フレームワークにおける従来のボトルネック構造の本質的制約について論じる。
フルチャネルグローバル自己アテンション (ISB) を持つ Instance-Specific Bottleneck と Instance-Specific Asymmetric Decoupled Head (ISADH) の2つの新しいモジュールを提案する。
MS-COCOベンチマークの実験では、YOLO-PROフレームワークにおけるISBとISADHの協調配置により、全ての計算スケールで最先端のパフォーマンスが達成されている。
- 参考スコア(独自算出の注目度): 37.89051124090947
- License:
- Abstract: This paper addresses the inherent limitations of conventional bottleneck structures (diminished instance discriminability due to overemphasis on batch statistics) and decoupled heads (computational redundancy) in object detection frameworks by proposing two novel modules: the Instance-Specific Bottleneck with full-channel global self-attention (ISB) and the Instance-Specific Asymmetric Decoupled Head (ISADH). The ISB module innovatively reconstructs feature maps to establish an efficient full-channel global attention mechanism through synergistic fusion of batch-statistical and instance-specific features. Complementing this, the ISADH module pioneers an asymmetric decoupled architecture enabling hierarchical multi-dimensional feature integration via dual-stream batch-instance representation fusion. Extensive experiments on the MS-COCO benchmark demonstrate that the coordinated deployment of ISB and ISADH in the YOLO-PRO framework achieves state-of-the-art performance across all computational scales. Specifically, YOLO-PRO surpasses YOLOv8 by 1.0-1.6% AP (N/S/M/L/X scales) and outperforms YOLO11 by 0.1-0.5% AP in critical M/L/X groups, while maintaining competitive computational efficiency. This work provides practical insights for developing high-precision detectors deployable on edge devices.
- Abstract(参考訳): 本稿では,従来のボトルネック構造(バッチ統計における過度の強調によるインスタンス識別性)と疎結合ヘッド(計算冗長性)の2つの新しいモジュール(ISB)とISADH(インスタンス特異非対称疎結合ヘッド)を提案することによって,オブジェクト検出フレームワークにおける固有な制約に対処する。
ISBモジュールは特徴マップを革新的に再構築し、バッチ統計とインスタンス固有の特徴の相乗的融合を通じて効率的な全チャネルのグローバルアテンションメカニズムを確立する。
補足することで、ISADHモジュールは二重ストリームバッチインスタンス表現融合による階層的な多次元特徴統合を可能にする非対称な疎結合アーキテクチャを開拓した。
YOLO-PROフレームワークにおけるISBとISADHの協調配置は,全ての計算スケールにおける最先端性能を実現することを示す。
具体的には、YOLO-PRO は YOLOv8 を 1.0-1.6% AP (N/S/M/L/X スケール) で上回り、重要な M/L/X グループでは YOLO11 を0.1-0.5% AP で上回り、競争計算効率を維持している。
この研究は、エッジデバイス上に展開可能な高精度検出器を開発するための実用的な洞察を提供する。
関連論文リスト
- YOLOv12: A Breakdown of the Key Architectural Features [0.5639904484784127]
YOLOv12は、単一ステージのリアルタイム物体検出において重要な進歩である。
最適化されたバックボーン(R-ELAN)、分離可能な7x7の畳み込み、およびFlashAttention駆動のエリアベースアテンションが組み込まれている。
レイテンシに敏感なアプリケーションと高精度なアプリケーションの両方にスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-02-20T17:08:43Z) - SOOD++: Leveraging Unlabeled Data to Boost Oriented Object Detection [59.868772767818975]
本稿では,SOOD++ と呼ばれる簡易かつ効果的な半教師付きオブジェクト指向検出手法を提案する。
具体的には、空中画像からの物体は、通常任意の向き、小さなスケール、集約である。
様々なラベル付き環境下での多目的オブジェクトデータセットに対する大規模な実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-01T07:03:51Z) - Stragglers-Aware Low-Latency Synchronous Federated Learning via Layer-Wise Model Updates [71.81037644563217]
同期フェデレーションラーニング(FL)は、協調エッジラーニングの一般的なパラダイムである。
一部のデバイスは計算資源が限られており、様々な可用性があるため、FLレイテンシはストラグラーに非常に敏感である。
本稿では,NNの最適化手法をバックプロパゲーションにより活用し,グローバルモデルを階層的に更新するストラグラー対応層対応学習(SALF)を提案する。
論文 参考訳(メタデータ) (2024-03-27T09:14:36Z) - ASF-YOLO: A Novel YOLO Model with Attentional Scale Sequence Fusion for Cell Instance Segmentation [6.502259209532815]
ASF-YOLO(Attentional Scale Sequence Fusion based You Only Look Once)フレームワークを提案する。
空間的およびスケール的な特徴を組み合わせて、正確で高速なセルインスタンスのセグメンテーションを行う。
ボックスmAPは0.91、マスクmAPは0.887、推論速度は2018 Data Science Bowlのデータセットで47.3 FPSである。
論文 参考訳(メタデータ) (2023-12-11T15:47:12Z) - Efficient and Effective Deep Multi-view Subspace Clustering [9.6753782215283]
E$2$MVSC(Efficient and Effective Deep Multi-View Subspace Clustering)と呼ばれる新しいディープフレームワークを提案する。
パラメータ化されたFC層の代わりに、より計算効率のよいサンプル数からネットワークパラメータスケールを分離するRelation-Metric Netを設計する。
E$2$MVSCは既存のメソッドに匹敵する結果を出し、様々なタイプのマルチビューデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-15T03:08:25Z) - Omni Aggregation Networks for Lightweight Image Super-Resolution [42.252518645833696]
この研究は、新しいOmni-SRアーキテクチャの下で2つの拡張されたコンポーネントを提案する。
まず、密接な相互作用原理に基づいて、Omni Self-Attention (OSA)ブロックを提案する。
第二に、準最適RFを緩和するマルチスケール相互作用方式を提案する。
論文 参考訳(メタデータ) (2023-04-20T12:05:14Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Semantic-aligned Fusion Transformer for One-shot Object Detection [18.58772037047498]
ワンショットオブジェクト検出は、与えられた1つのインスタンスに従って新しいオブジェクトを検出することを目的としている。
現在のアプローチでは、直接転送可能なメタ知識を得るために様々な特徴融合を探索している。
本稿では,これらの問題を解決するために,Semantic-aligned Fusion Transformer (SaFT) というシンプルなアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。