論文の概要: Global Feature Pyramid Network
- arxiv url: http://arxiv.org/abs/2312.11231v2
- Date: Tue, 2 Jan 2024 03:34:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 19:31:07.721942
- Title: Global Feature Pyramid Network
- Title(参考訳): グローバルな特徴ピラミッドネットワーク
- Authors: Weilin Xiao, Ming Xu and Yonggui Lin
- Abstract要約: 視覚的特徴ピラミッドは、目標検出タスクの有効性と効率性を証明している。
現在の手法では、層間特徴の相互作用を過度に強調し、層内特徴調整の重要な側面を無視する傾向にある。
- 参考スコア(独自算出の注目度): 1.2473780585666772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The visual feature pyramid has proven its effectiveness and efficiency in
target detection tasks. Yet, current methodologies tend to overly emphasize
inter-layer feature interaction, neglecting the crucial aspect of intra-layer
feature adjustment. Experience underscores the significant advantages of
intra-layer feature interaction in enhancing target detection tasks. While some
approaches endeavor to learn condensed intra-layer feature representations
using attention mechanisms or visual transformers, they overlook the
incorporation of global information interaction. This oversight results in
increased false detections and missed targets.To address this critical issue,
this paper introduces the Global Feature Pyramid Network (GFPNet), an augmented
version of PAFPN that integrates global information for enhanced target
detection. Specifically, we leverage a lightweight MLP to capture global
feature information, utilize the VNC encoder to process these features, and
employ a parallel learnable mechanism to extract intra-layer features from the
input image. Building on this foundation, we retain the PAFPN method to
facilitate inter-layer feature interaction, extracting rich feature details
across various levels.Compared to conventional feature pyramids, GFPN not only
effectively focuses on inter-layer feature information but also captures global
feature details, fostering intra-layer feature interaction and generating a
more comprehensive and impactful feature representation. GFPN consistently
demonstrates performance improvements over object detection baselines.
- Abstract(参考訳): 視覚的特徴ピラミッドは、目標検出タスクの有効性と効率性を証明している。
しかし、現在の手法は層間特徴の相互作用を過度に強調し、層間特徴調整の重要な側面を無視する傾向にある。
experienceは、ターゲット検出タスクの強化における層内特徴の相互作用の重要な利点を強調する。
いくつかのアプローチでは、注意機構や視覚変換器を用いて層内特徴表現の凝縮を学習しようとするが、グローバルな情報相互作用の組み入れを見落としている。
この見落としは、誤検出の増加と目標の欠落を招き、この問題に対処するため、本論文では、ターゲット検出にグローバル情報を統合したpafpnの拡張版であるglobal feature pyramid network(gfpnet)を紹介する。
具体的には、軽量MLPを利用してグローバルな特徴情報をキャプチャし、VNCエンコーダを使ってこれらの特徴を処理し、並列学習機構を用いて入力画像から層内特徴を抽出する。
この基盤の上に構築したPAFPN法は,多層的特徴の相互作用を促進するため,多層的特徴の相互作用の促進,多層的特徴の抽出,および従来の特徴のピラミッドと対比して,GFPNは層間特徴情報を効果的に重視するだけでなく,グローバルな特徴の詳細を捉え,層間特徴の相互作用を育み,より包括的でインパクトのある特徴の表現を生成する。
GFPNは一貫してオブジェクト検出ベースラインよりもパフォーマンスが向上している。
関連論文リスト
- Point Cloud Understanding via Attention-Driven Contrastive Learning [64.65145700121442]
トランスフォーマーベースのモデルは、自己認識機構を活用することにより、先進的なポイントクラウド理解を持つ。
PointACLは、これらの制限に対処するために設計された、注意駆動のコントラスト学習フレームワークである。
本手法では, 注意駆動型動的マスキング手法を用いて, モデルが非集中領域に集中するように誘導する。
論文 参考訳(メタデータ) (2024-11-22T05:41:00Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Holistic Prototype Attention Network for Few-Shot VOS [74.25124421163542]
FSVOS(Few-shot Video Object segmentation)は、少数のサポートイメージに頼って、目に見えないクラスの動的オブジェクトをセグメントすることを目的としている。
本稿では,FSVOS を前進させるための総合プロトタイプアテンションネットワーク (HPAN) を提案する。
論文 参考訳(メタデータ) (2023-07-16T03:48:57Z) - Centralized Feature Pyramid for Object Detection [53.501796194901964]
視覚的特徴ピラミッドは、広範囲のアプリケーションにおいて、有効性と効率の両方において、その優位性を示している。
本稿では,オブジェクト検出のためのOLO特徴ピラミッドを提案する。
論文 参考訳(メタデータ) (2022-10-05T08:32:54Z) - Perception-and-Regulation Network for Salient Object Detection [8.026227647732792]
本稿では,特徴間の相互依存性を明示的にモデル化し,特徴融合プロセスを適応的に制御する新しいグローバルアテンションユニットを提案する。
知覚部は、分類網内の完全に接続された層の構造を用いて、物体のサイズと形状を学習する。
さらに、ネットワークのグローバルな認識能力向上のために、模倣眼観察モジュール(IEO)が使用される。
論文 参考訳(メタデータ) (2021-07-27T02:38:40Z) - Global Context Aware RCNN for Object Detection [1.1939762265857436]
我々はGCA (Global Context Aware) RCNNと呼ばれる新しいエンドツーエンドのトレーニング可能なフレームワークを提案する。
GCAフレームワークの中核となるコンポーネントは、グローバルな特徴ピラミッドとアテンション戦略の両方を特徴抽出と特徴改善に使用する、コンテキスト認識メカニズムである。
最後に,モデルの複雑さと計算負担をわずかに増加させる軽量バージョンを提案する。
論文 参考訳(メタデータ) (2020-12-04T14:56:46Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z) - Cross-layer Feature Pyramid Network for Salient Object Detection [102.20031050972429]
本稿では,有能な物体検出における進行的融合を改善するために,新しいクロス層特徴ピラミッドネットワークを提案する。
レイヤごとの分散機能は、他のすべてのレイヤからセマンティクスと健全な詳細の両方を同時に所有し、重要な情報の損失を減らします。
論文 参考訳(メタデータ) (2020-02-25T14:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。