論文の概要: Centralized Feature Pyramid for Object Detection
- arxiv url: http://arxiv.org/abs/2210.02093v1
- Date: Wed, 5 Oct 2022 08:32:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 14:09:20.088338
- Title: Centralized Feature Pyramid for Object Detection
- Title(参考訳): オブジェクト検出のための集中型特徴ピラミッド
- Authors: Yu Quan, Dong Zhang, Liyan Zhang, Jinhui Tang
- Abstract要約: 視覚的特徴ピラミッドは、広範囲のアプリケーションにおいて、有効性と効率の両方において、その優位性を示している。
本稿では,オブジェクト検出のためのOLO特徴ピラミッドを提案する。
- 参考スコア(独自算出の注目度): 53.501796194901964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual feature pyramid has shown its superiority in both effectiveness and
efficiency in a wide range of applications. However, the existing methods
exorbitantly concentrate on the inter-layer feature interactions but ignore the
intra-layer feature regulations, which are empirically proved beneficial.
Although some methods try to learn a compact intra-layer feature representation
with the help of the attention mechanism or the vision transformer, they ignore
the neglected corner regions that are important for dense prediction tasks. To
address this problem, in this paper, we propose a Centralized Feature Pyramid
(CFP) for object detection, which is based on a globally explicit centralized
feature regulation. Specifically, we first propose a spatial explicit visual
center scheme, where a lightweight MLP is used to capture the globally
long-range dependencies and a parallel learnable visual center mechanism is
used to capture the local corner regions of the input images. Based on this, we
then propose a globally centralized regulation for the commonly-used feature
pyramid in a top-down fashion, where the explicit visual center information
obtained from the deepest intra-layer feature is used to regulate frontal
shallow features. Compared to the existing feature pyramids, CFP not only has
the ability to capture the global long-range dependencies, but also efficiently
obtain an all-round yet discriminative feature representation. Experimental
results on the challenging MS-COCO validate that our proposed CFP can achieve
the consistent performance gains on the state-of-the-art YOLOv5 and YOLOX
object detection baselines.
- Abstract(参考訳): visual feature pyramidは、幅広いアプリケーションで有効性と効率性の両方において優れていることを示している。
しかし, 既存の手法では, 層間相互作用に重点を置きつつ, 実験上有益である層内特徴規則を無視している。
注意機構や視覚変換器の助けを借りて、コンパクトな層内特徴表現を学習しようとする手法もあるが、密集予測タスクにおいて重要な無視されたコーナー領域を無視する手法もある。
この問題に対処するため,本稿では,グローバルに明示的な集中型特徴規則に基づく物体検出のための集中型特徴ピラミッド(cfp)を提案する。
具体的には,まず空間的明示的な視覚センタスキームを提案する。このスキームでは,大域的長距離依存性をライトウェイトなmlpでキャプチャし,入力画像の局所的コーナー領域を並列学習可能な視覚センタ機構を用いてキャプチャする。
そこで,本研究では,最深層内特徴から得られる視覚中心情報を用いて,前頭葉の浅部特徴の制御を行う,一般的な特徴ピラミッドをトップダウン方式でグローバルに一元管理する手法を提案する。
既存の機能ピラミッドと比較すると、CFPはグローバルな長距離依存関係をキャプチャするだけでなく、全周で差別的な特徴表現を効率的に得ることができる。
提案したCFPは,最先端のYOLOv5およびYOLOXオブジェクト検出ベースラインにおいて一貫した性能向上を達成できることを示す。
関連論文リスト
- PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Global Feature Pyramid Network [1.2473780585666772]
視覚的特徴ピラミッドは、目標検出タスクの有効性と効率性を証明している。
現在の手法では、層間特徴の相互作用を過度に強調し、層内特徴調整の重要な側面を無視する傾向にある。
論文 参考訳(メタデータ) (2023-12-18T14:30:41Z) - TOPIQ: A Top-down Approach from Semantics to Distortions for Image
Quality Assessment [53.72721476803585]
画像品質評価(IQA)は、ディープニューラルネットワークによる顕著な進歩を目の当たりにしたコンピュータビジョンの基本課題である。
本稿では,高レベルの意味論を用いてIQAネットワークを誘導し,意味的に重要な局所歪み領域に注目するトップダウンアプローチを提案する。
提案手法の重要な要素は,低レベル特徴に対するアテンションマップを算出した,クロススケールアテンション機構である。
論文 参考訳(メタデータ) (2023-08-06T09:08:37Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - SphereVLAD++: Attention-based and Signal-enhanced Viewpoint Invariant
Descriptor [6.326554177747699]
SphereVLAD++ は注目度が高められた視点不変位置認識手法である。
SphereVLAD++は、小さな視点や完全に逆の視点差の下で、最先端の3D位置認識手法をすべて上回ることを示す。
論文 参考訳(メタデータ) (2022-07-06T20:32:43Z) - Perception-and-Regulation Network for Salient Object Detection [8.026227647732792]
本稿では,特徴間の相互依存性を明示的にモデル化し,特徴融合プロセスを適応的に制御する新しいグローバルアテンションユニットを提案する。
知覚部は、分類網内の完全に接続された層の構造を用いて、物体のサイズと形状を学習する。
さらに、ネットワークのグローバルな認識能力向上のために、模倣眼観察モジュール(IEO)が使用される。
論文 参考訳(メタデータ) (2021-07-27T02:38:40Z) - Global Context Aware RCNN for Object Detection [1.1939762265857436]
我々はGCA (Global Context Aware) RCNNと呼ばれる新しいエンドツーエンドのトレーニング可能なフレームワークを提案する。
GCAフレームワークの中核となるコンポーネントは、グローバルな特徴ピラミッドとアテンション戦略の両方を特徴抽出と特徴改善に使用する、コンテキスト認識メカニズムである。
最後に,モデルの複雑さと計算負担をわずかに増加させる軽量バージョンを提案する。
論文 参考訳(メタデータ) (2020-12-04T14:56:46Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z) - Cross-layer Feature Pyramid Network for Salient Object Detection [102.20031050972429]
本稿では,有能な物体検出における進行的融合を改善するために,新しいクロス層特徴ピラミッドネットワークを提案する。
レイヤごとの分散機能は、他のすべてのレイヤからセマンティクスと健全な詳細の両方を同時に所有し、重要な情報の損失を減らします。
論文 参考訳(メタデータ) (2020-02-25T14:06:27Z) - Hybrid Multiple Attention Network for Semantic Segmentation in Aerial
Images [24.35779077001839]
グローバルな相関関係を適応的に捉えるために,Hybrid Multiple Attention Network (HMANet) という新しいアテンションベースのフレームワークを提案する。
本稿では,機能的冗長性を低減し,自己注意機構の効率を向上させるため,単純で効果的な領域シャッフルアテンション(RSA)モジュールを提案する。
論文 参考訳(メタデータ) (2020-01-09T07:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。