論文の概要: Feature Pyramid Transformer
- arxiv url: http://arxiv.org/abs/2007.09451v1
- Date: Sat, 18 Jul 2020 15:16:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 05:53:13.845145
- Title: Feature Pyramid Transformer
- Title(参考訳): 特徴ピラミッドトランスフォーマ
- Authors: Dong Zhang, Hanwang Zhang, Jinhui Tang, Meng Wang, Xiansheng Hua and
Qianru Sun
- Abstract要約: 我々は、FPT(Feature Pyramid Transformer)と呼ばれる、空間とスケールの双方で完全にアクティブな特徴相互作用を提案する。
FPTは任意の特徴ピラミッドを同じ大きさの他の特徴ピラミッドに変換するが、よりリッチなコンテキストを持つ。
我々は、インスタンスレベル(オブジェクト検出とインスタンスセグメンテーション)とピクセルレベルのセグメンテーションタスクの両方で広範な実験を行う。
- 参考スコア(独自算出の注目度): 121.50066435635118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature interactions across space and scales underpin modern visual
recognition systems because they introduce beneficial visual contexts.
Conventionally, spatial contexts are passively hidden in the CNN's increasing
receptive fields or actively encoded by non-local convolution. Yet, the
non-local spatial interactions are not across scales, and thus they fail to
capture the non-local contexts of objects (or parts) residing in different
scales. To this end, we propose a fully active feature interaction across both
space and scales, called Feature Pyramid Transformer (FPT). It transforms any
feature pyramid into another feature pyramid of the same size but with richer
contexts, by using three specially designed transformers in self-level,
top-down, and bottom-up interaction fashion. FPT serves as a generic visual
backbone with fair computational overhead. We conduct extensive experiments in
both instance-level (i.e., object detection and instance segmentation) and
pixel-level segmentation tasks, using various backbones and head networks, and
observe consistent improvement over all the baselines and the state-of-the-art
methods.
- Abstract(参考訳): 空間とスケールにまたがる特徴的相互作用は、有益な視覚コンテキストを導入するため、現代の視覚認識システムを支える。
伝統的に、空間コンテキストはCNNの受容領域に受動的に隠されるか、非局所的畳み込みによって積極的に符号化される。
しかし、非局所的な空間相互作用はスケールを越えたものではないため、異なるスケールに存在する物体(または部分)の非局所的なコンテキストを捉えることができない。
そこで本稿では,FPT (Feature Pyramid Transformer) と呼ばれる,空間とスケールをまたいだ完全な機能相互作用を提案する。
任意の特徴ピラミッドを同じ大きさの別の特徴ピラミッドに変換するが、よりリッチなコンテキストで、自己レベル、トップダウン、ボトムアップのインタラクションスタイルで3つの特別に設計されたトランスフォーマーを使用する。
FPTは、計算オーバーヘッドが一定である一般的な視覚バックボーンとして機能する。
我々は,様々なバックボーンとヘッドネットワークを用いて,インスタンスレベル(オブジェクト検出とインスタンスセグメンテーション)とピクセルレベルのセグメンテーションタスクの両方で広範な実験を行い,すべてのベースラインと最先端の手法に対する一貫した改善を観察する。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - FMRT: Learning Accurate Feature Matching with Reconciliatory Transformer [29.95553680263075]
本稿では,複数の受容場と異なる特徴を適応的に整合する検出不要な手法であるFMRTを提案する。
FMRTは、ポーズ推定、視覚的ローカライゼーション、ホモグラフィー推定、画像マッチングなど、複数のベンチマークで素晴らしいパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-10-20T15:54:18Z) - Exploiting Inductive Bias in Transformer for Point Cloud Classification
and Segmentation [22.587913528540465]
本稿では,新しいインダクティブバイアス支援トランス (IBT) 法を設計し,点間関係を学習する。
局所的特徴学習は相対的位置、注意的特徴プーリングを通じて行われる。
分類タスクと分割タスクにおいて,その優位性を実験的に示す。
論文 参考訳(メタデータ) (2023-04-27T12:17:35Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - Centralized Feature Pyramid for Object Detection [53.501796194901964]
視覚的特徴ピラミッドは、広範囲のアプリケーションにおいて、有効性と効率の両方において、その優位性を示している。
本稿では,オブジェクト検出のためのOLO特徴ピラミッドを提案する。
論文 参考訳(メタデータ) (2022-10-05T08:32:54Z) - ScaleFormer: Revisiting the Transformer-based Backbones from a
Scale-wise Perspective for Medical Image Segmentation [16.995195979992015]
医用画像セグメンテーションのための新しいビジョントランスフォーマーベースのバックボーンであるScaleFormerを提案する。
スケールワイド・スケール・イン・スケール・トランスフォーマーは,CNNをベースとした局所的特徴と,トランスフォーマーをベースとしたグローバルなキューをそれぞれのスケールで組み合わせるように設計されている。
簡易かつ効果的な空間認識型大規模変圧器は,複数のスケールで接続領域間で相互作用するように設計されている。
論文 参考訳(メタデータ) (2022-07-29T08:55:00Z) - RoME: Role-aware Mixture-of-Expert Transformer for Text-to-Video
Retrieval [66.2075707179047]
そこで本研究では,テキストと動画を3段階に切り離した,新しい混在型トランスフォーマーRoMEを提案する。
我々はトランスフォーマーに基づくアテンション機構を用いて、グローバルレベルとローカルレベルの両方で視覚とテキストの埋め込みを完全に活用する。
提案手法は,YouCook2 および MSR-VTT データセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-26T11:12:49Z) - SemAffiNet: Semantic-Affine Transformation for Point Cloud Segmentation [94.11915008006483]
ポイントクラウドセマンティックセグメンテーションのためのSemAffiNetを提案する。
我々はScanNetV2とNYUv2データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-05-26T17:00:23Z) - Point Cloud Learning with Transformer [2.3204178451683264]
我々は,マルチレベルマルチスケールポイントトランスフォーマ(mlmspt)と呼ばれる新しいフレームワークを提案する。
具体的には、点ピラミッド変換器を用いて、多様な分解能やスケールを持つ特徴をモデル化する。
マルチレベルトランスモジュールは、各スケールの異なるレベルからコンテキスト情報を集約し、それらの相互作用を強化するように設計されている。
論文 参考訳(メタデータ) (2021-04-28T08:39:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。