論文の概要: Content-Augmented Feature Pyramid Network with Light Linear Transformers
- arxiv url: http://arxiv.org/abs/2105.09464v1
- Date: Thu, 20 May 2021 02:31:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 21:10:57.756409
- Title: Content-Augmented Feature Pyramid Network with Light Linear Transformers
- Title(参考訳): 光リニア変換器を用いたコンテンツ強化型ピラミッドネットワーク
- Authors: Yongxiang Gu, Xiaolin Qin, Yuncong Peng, Lu Li
- Abstract要約: トランスは、自己認識機構を使用して、グローバルビューから同様の機能を適応的に集約することができる。
オブジェクト検出のために、Feature Pyramid Network (FPN) は層間の機能相互作用を提案し、その重要性を証明している。
本稿では、線形化注意関数を用いて上記の問題を克服し、新しいアーキテクチャであるContent-Augmented Feature Pyramid Network (CA-FPN)を構築する。
- 参考スコア(独自算出の注目度): 7.035864400598343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, plenty of work has tried to introduce transformers into computer
vision tasks, with good results. Unlike classic convolution networks, which
extract features within a local receptive field, transformers can adaptively
aggregate similar features from a global view using self-attention mechanism.
For object detection, Feature Pyramid Network (FPN) proposes feature
interaction across layers and proves its extremely importance. However, its
interaction is still in a local manner, which leaves a lot of room for
improvement. Since transformer was originally designed for NLP tasks, adapting
processing subject directly from text to image will cause unaffordable
computation and space overhead. In this paper, we utilize a linearized
attention function to overcome above problems and build a novel architecture,
named Content-Augmented Feature Pyramid Network (CA-FPN), which proposes a
global content extraction module and deeply combines with FPN through light
linear transformers. What's more, light transformers can further make the
application of multi-head attention mechanism easier. Most importantly, our
CA-FPN can be readily plugged into existing FPN-based models. Extensive
experiments on the challenging COCO object detection dataset demonstrated that
our CA-FPN significantly outperforms competitive baselines without bells and
whistles. Code will be made publicly available.
- Abstract(参考訳): 近年,コンピュータビジョンタスクにトランスフォーマーを導入しようと試み,良好な結果が得られた。
局所受容領域内の特徴を抽出する古典的畳み込みネットワークとは異なり、トランスフォーマーは自己認識機構を用いてグローバルビューから同様の特徴を適応的に集約することができる。
オブジェクト検出のために、Feature Pyramid Network (FPN) は層間の機能相互作用を提案し、その重要性を証明している。
しかし、その相互作用はまだローカルな方法であり、改善の余地は多く残されている。
変換器はもともとNLPタスク用に設計されていたため、テキストから画像へ直接処理対象を適応させると、計算や空間オーバーヘッドが発生する。
本稿では,上記の問題を克服する線形化注意関数を用いて,光線形変換器を用いてFPNと深く結合したグローバルコンテンツ抽出モジュールを提案する,CA-FPN(Content-Augmented Feature Pyramid Network)という新しいアーキテクチャを構築する。
さらに、ライトトランスフォーマーはマルチヘッドアテンション機構の応用をさらに簡単にしてくれます。
最も重要なことは、我々のCA-FPNは既存のFPNベースのモデルに簡単に接続できることです。
挑戦的なCOCOオブジェクト検出データセットに関する大規模な実験により、我々のCA-FPNはベルやホイッスルなしで競争ベースラインを著しく上回っていることが示された。
コードは公開される予定だ。
関連論文リスト
- DuoFormer: Leveraging Hierarchical Visual Representations by Local and Global Attention [1.5624421399300303]
本稿では、畳み込みニューラルネットワーク(CNN)の特徴抽出機能と視覚変換器(ViT)の高度な表現可能性とを包括的に統合した新しい階層型トランスフォーマーモデルを提案する。
インダクティブバイアスの欠如と、ViTの広範囲なトレーニングデータセットへの依存に対処するため、我々のモデルはCNNバックボーンを使用して階層的な視覚表現を生成する。
これらの表現は、革新的なパッチトークン化を通じてトランスフォーマー入力に適合する。
論文 参考訳(メタデータ) (2024-07-18T22:15:35Z) - CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection [1.837431956557716]
特徴ピラミッドは、医療画像のセグメンテーションやオブジェクト検出といったタスクのために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーで広く採用されている。
本稿では,特徴ピラミッドと変圧器を統合したデコーダブロックを提案する。
本モデルでは,既存手法と比較して,小型物体の検出性能が向上する。
論文 参考訳(メタデータ) (2024-04-23T18:46:07Z) - A Comprehensive Survey on Applications of Transformers for Deep Learning
Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。
Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。
我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文 参考訳(メタデータ) (2023-06-11T23:13:51Z) - Feature Shrinkage Pyramid for Camouflaged Object Detection with
Transformers [34.42710399235461]
視覚変換器は、最近、擬似的オブジェクト検出において、強いグローバルなコンテキストモデリング能力を示した。
ローカリティモデリングの効率の低下とデコーダの機能集約の不足という2つの大きな制限に悩まされている。
本研究では, 局所性向上した隣接する変圧器の特徴を階層的に復号化することを目的とした, 変圧器をベースとしたFSPNet(Feature Shrinkage Pyramid Network)を提案する。
論文 参考訳(メタデータ) (2023-03-26T20:50:58Z) - Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。
まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。
第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。