論文の概要: Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection
- arxiv url: http://arxiv.org/abs/2207.06603v1
- Date: Thu, 14 Jul 2022 01:45:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-15 13:36:14.911936
- Title: Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection
- Title(参考訳): 物体検出における特徴ピラミッドのブースティングのための変圧器に基づくコンテキスト凝縮
- Authors: Zhe Chen, Jing Zhang, Yufei Xu, Dacheng Tao
- Abstract要約: 現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
- 参考スコア(独自算出の注目度): 77.50110439560152
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current object detectors typically have a feature pyramid (FP) module for
multi-level feature fusion (MFF) which aims to mitigate the gap between
features from different levels and form a comprehensive object representation
to achieve better detection performance. However, they usually require heavy
cross-level connections or iterative refinement to obtain better MFF result,
making them complicated in structure and inefficient in computation. To address
these issues, we propose a novel and efficient context modeling mechanism that
can help existing FPs deliver better MFF results while reducing the
computational costs effectively. In particular, we introduce a novel insight
that comprehensive contexts can be decomposed and condensed into two types of
representations for higher efficiency. The two representations include a
locally concentrated representation and a globally summarized representation,
where the former focuses on extracting context cues from nearby areas while the
latter extracts key representations of the whole image scene as global context
cues. By collecting the condensed contexts, we employ a Transformer decoder to
investigate the relations between them and each local feature from the FP and
then refine the MFF results accordingly. As a result, we obtain a simple and
light-weight Transformer-based Context Condensation (TCC) module, which can
boost various FPs and lower their computational costs simultaneously. Extensive
experimental results on the challenging MS COCO dataset show that TCC is
compatible to four representative FPs and consistently improves their detection
accuracy by up to 7.8 % in terms of average precision and reduce their
complexities by up to around 20% in terms of GFLOPs, helping them achieve
state-of-the-art performance more efficiently. Code will be released.
- Abstract(参考訳): 現在のオブジェクト検出器は、通常、多レベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持ち、異なるレベルの特徴間のギャップを緩和し、より優れた検出性能を達成するために包括的なオブジェクト表現を形成することを目的としている。
しかし、それらは通常、より優れたmff結果を得るために重いクロスレベル接続や反復的な洗練が必要であり、構造が複雑で計算が非効率である。
これらの問題に対処するため、既存のFPがより優れたMFF結果を提供するのに有効であり、計算コストを効果的に削減できる新しい、効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を分解し,より効率の良い2種類の表現に凝縮できるという新しい洞察を導入する。
2つの表現は局所集中表現とグローバル要約表現を含み、前者は近隣地域からコンテキストキューを抽出することに焦点を当て、後者はグローバルコンテキストキューとして画像シーン全体のキー表現を抽出する。
コンデンスされたコンテキストを収集することにより、トランスフォーマーデコーダを用いて、FPから各ローカル特徴との関係を調べ、それに応じてMFF結果を精査する。
その結果、単純で軽量な Transformer-based Context Condensation (TCC) モジュールが得られた。
挑戦的なMS COCOデータセットの大規模な実験結果によると、TCCは4つの代表的なFPと互換性があり、平均精度で最大7.8%まで検出精度を向上し、GFLOPでは最大20%の複雑さを低減し、最先端のパフォーマンスをより効率的に達成できる。
コードはリリースされる。
関連論文リスト
- Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。
このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文 参考訳(メタデータ) (2024-08-05T08:35:59Z) - Modality-Collaborative Transformer with Hybrid Feature Reconstruction
for Robust Emotion Recognition [35.15390769958969]
ハイブリッド特徴再構成(MCT-HFR)を用いた統一型モダリティ協調変換器を提案する。
MCT-HFRは、モダリティ内およびモダリティ間関係を同時に抽出し、動的にバランスをとる新しいアテンションベースのエンコーダで構成されている。
モデルトレーニング中、LFIは、完全特徴を監督信号として活用し、局所的欠落した特徴を回復する一方、GFAはペア完全表現と不完全表現のグローバルな意味的ギャップを減らすように設計されている。
論文 参考訳(メタデータ) (2023-12-26T01:59:23Z) - Efficient and Effective Deep Multi-view Subspace Clustering [9.6753782215283]
E$2$MVSC(Efficient and Effective Deep Multi-View Subspace Clustering)と呼ばれる新しいディープフレームワークを提案する。
パラメータ化されたFC層の代わりに、より計算効率のよいサンプル数からネットワークパラメータスケールを分離するRelation-Metric Netを設計する。
E$2$MVSCは既存のメソッドに匹敵する結果を出し、様々なタイプのマルチビューデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-15T03:08:25Z) - MA-FSAR: Multimodal Adaptation of CLIP for Few-Shot Action Recognition [41.78245303513613]
我々は,行動に関連する時間的および意味的表現の観点からCLIP視覚エンコーダを強化するために,Fine-Tuning(PEFT)技術を利用するフレームワークであるMA-FSARを紹介する。
これらのトークンレベルの設計に加えて,ビデオプロトタイプの時間的・意味的特性をさらに強化するプロトタイプレベルのテキストガイド構築モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-03T04:17:25Z) - Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。
降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。
提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文 参考訳(メタデータ) (2022-07-21T12:50:54Z) - Disentangled Federated Learning for Tackling Attributes Skew via
Invariant Aggregation and Diversity Transferring [104.19414150171472]
属性は、クライアント間の一貫した最適化方向から、現在の連邦学習(FL)フレームワークを歪めます。
本稿では,ドメイン固有属性とクロス不変属性を2つの補足枝に分離するために,非絡み付きフェデレーション学習(DFL)を提案する。
実験により、DFLはSOTA FL法と比較して高い性能、より良い解釈可能性、より高速な収束率でFLを促進することが確認された。
論文 参考訳(メタデータ) (2022-06-14T13:12:12Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Dynamic Feature Pyramid Networks for Object Detection [40.24111664691307]
本稿では,各層に異なるカーネルサイズを持つ畳み込みフィルタを組み込んで,受容場を拡大するFPNを提案する。
計算コストの異なる複数の分岐からなる新しい動的FPN(DyFPN)を提案する。
ベンチマーク実験により,提案したDyFPNは計算資源の最適割り当てにより性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2020-12-01T19:03:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。