論文の概要: UniHead: Unifying Multi-Perception for Detection Heads
- arxiv url: http://arxiv.org/abs/2309.13242v1
- Date: Sat, 23 Sep 2023 03:22:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 21:13:02.788984
- Title: UniHead: Unifying Multi-Perception for Detection Heads
- Title(参考訳): UniHead: 検出ヘッドのためのマルチパーセプションの統合
- Authors: Hantao Zhou, Rui Yang, Yachao Zhang, Haoran Duan, Yawen Huang, Runze
Hu, Xiu Li, Yefeng Zheng
- Abstract要約: 我々は、3つの知覚能力を同時に統合するために、UniHeadと呼ばれる革新的な検出ヘッドを開発した。
プラグアンドプレイ法として、提案したUniHeadは既存の検出器と便利な統合が可能である。
例えば、UniHeadはRetinaNetで+2.7APゲイン、FreeAnchorで+2.9APゲイン、GFLで+2.1APゲインを得ることができる。
- 参考スコア(独自算出の注目度): 42.233512172924016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The detection head constitutes a pivotal component within object detectors,
tasked with executing both classification and localization functions.
Regrettably, the commonly used parallel head often lacks omni perceptual
capabilities, such as deformation perception, global perception and cross-task
perception. Despite numerous methods attempt to enhance these abilities from a
single aspect, achieving a comprehensive and unified solution remains a
significant challenge. In response to this challenge, we have developed an
innovative detection head, termed UniHead, to unify three perceptual abilities
simultaneously. More precisely, our approach (1) introduces deformation
perception, enabling the model to adaptively sample object features; (2)
proposes a Dual-axial Aggregation Transformer (DAT) to adeptly model long-range
dependencies, thereby achieving global perception; and (3) devises a Cross-task
Interaction Transformer (CIT) that facilitates interaction between the
classification and localization branches, thus aligning the two tasks. As a
plug-and-play method, the proposed UniHead can be conveniently integrated with
existing detectors. Extensive experiments on the COCO dataset demonstrate that
our UniHead can bring significant improvements to many detectors. For instance,
the UniHead can obtain +2.7 AP gains in RetinaNet, +2.9 AP gains in FreeAnchor,
and +2.1 AP gains in GFL. The code will be publicly available. Code Url:
https://github.com/zht8506/UniHead.
- Abstract(参考訳): 検出ヘッドは、オブジェクト検出器内の重要なコンポーネントを構成し、分類機能と局所機能の両方を実行する。
一般的に使用される並列ヘッドは、変形知覚、大域的知覚、クロスタスク知覚などの全能を欠いていることが多い。
一つの側面からこれらの能力を拡張しようとする多くの手法にもかかわらず、包括的で統一されたソリューションを達成することは大きな課題である。
この課題に対して、我々は3つの知覚能力を同時に統合するUniHeadと呼ばれる革新的な検出ヘッドを開発した。
より正確には,本手法は変形知覚を導入し,モデルがオブジェクトの特徴を適応的にサンプリングすることを可能にし,(2)長距離依存を包括的にモデル化し,大域的知覚を実現するためにDAT(Dual-axial Aggregation Transformer)を提案し,(3)分類と局所化の相互作用を容易にするクロスタスクインタラクショントランスフォーマー(CIT)を考案する。
プラグアンドプレイ法として、提案したUniHeadは既存の検出器と便利に統合できる。
COCOデータセットに関する大規模な実験は、UniHeadが多くの検出器に大幅な改善をもたらすことを示した。
例えば、UniHeadはRetinaNetで+2.7APゲイン、FreeAnchorで+2.9APゲイン、GFLで+2.1APゲインを得ることができる。
コードは公開される予定だ。
コードUrl: https://github.com/zht8506/UniHead
関連論文リスト
- Renormalized Connection for Scale-preferred Object Detection in Satellite Imagery [51.83786195178233]
我々は、効率的な特徴抽出の観点から再正規化群理論を実装するために、知識発見ネットワーク(KDN)を設計する。
KDN上の再正規化接続(RC)は、マルチスケール特徴の「相乗的焦点」を可能にする。
RCはFPNベースの検出器のマルチレベル特徴の分割・対数機構を幅広いスケールで予測されたタスクに拡張する。
論文 参考訳(メタデータ) (2024-09-09T13:56:22Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - DuEqNet: Dual-Equivariance Network in Outdoor 3D Object Detection for
Autonomous Driving [4.489333751818157]
まず3次元物体検出ネットワークに等分散の概念を導入するDuEqNetを提案する。
我々のモデルの双対同変は、局所的および大域的両方の同変的特徴を抽出することができる。
本モデルでは, 配向精度が向上し, 予測効率が向上する。
論文 参考訳(メタデータ) (2023-02-27T08:30:02Z) - Rethinking the Detection Head Configuration for Traffic Object Detection [11.526701794026641]
本稿では,検出ヘッドとオブジェクト分布のマッチングに基づいて,軽量なトラフィックオブジェクト検出ネットワークを提案する。
提案したモデルでは,BDD100Kデータセットと提案したETFOD-v2データセットの他のモデルよりも,より競争力のあるパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-08T02:23:57Z) - Unifying Visual Perception by Dispersible Points Learning [19.5805418969605]
本稿では,視覚的タスクを多用するための,概念的にシンプルで柔軟で普遍的な視覚認知ヘッドを提案する。
本手法は画像中の物体を効果的に識別し,高品質なバウンディングボックスや輪郭型セグメンテーションマスクを同時に生成する。
我々は、ImageNet分類とCOCOスイートの3つのトラックについて広範囲に評価する。
論文 参考訳(メタデータ) (2022-08-18T04:30:24Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。
この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。
本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T07:01:33Z) - Disentangle Your Dense Object Detector [82.22771433419727]
深層学習に基づく高密度物体検出器はここ数年で大きな成功を収め、ビデオ理解などのマルチメディアアプリケーションにも応用されてきた。
しかし、現在の高密度検出器の訓練パイプラインは、保持できない多くの接続に妥協されている。
そこで本研究では, 簡易かつ効果的な遠心分離機構を設計し, 現在の最先端検出器に統合するDED(Disentangled Dense Object Detector)を提案する。
論文 参考訳(メタデータ) (2021-07-07T00:52:16Z) - AFD-Net: Adaptive Fully-Dual Network for Few-Shot Object Detection [8.39479809973967]
Few-shot Object Detection (FSOD) は、未確認の物体に迅速に適応できる検出器の学習を目的としている。
既存の方法では、共有コンポーネントを用いて分類と局所化のサブタスクを実行することで、この問題を解決している。
本稿では,2つのサブタスクの明示的な分解を考慮し,両者の情報を活用して特徴表現の強化を図ることを提案する。
論文 参考訳(メタデータ) (2020-11-30T10:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。