Fugu-MT 論文翻訳(概要): Feature Pyramid Transformer

論文の概要: Feature Pyramid Transformer

arxiv url: http://arxiv.org/abs/2007.09451v1
Date: Sat, 18 Jul 2020 15:16:32 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-09 05:53:13.845145
Title: Feature Pyramid Transformer
Title（参考訳）: 特徴ピラミッドトランスフォーマ
Authors: Dong Zhang, Hanwang Zhang, Jinhui Tang, Meng Wang, Xiansheng Hua and Qianru Sun
Abstract要約: 我々は、FPT(Feature Pyramid Transformer)と呼ばれる、空間とスケールの双方で完全にアクティブな特徴相互作用を提案する。 FPTは任意の特徴ピラミッドを同じ大きさの他の特徴ピラミッドに変換するが、よりリッチなコンテキストを持つ。我々は、インスタンスレベル(オブジェクト検出とインスタンスセグメンテーション)とピクセルレベルのセグメンテーションタスクの両方で広範な実験を行う。
参考スコア（独自算出の注目度）: 121.50066435635118
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Feature interactions across space and scales underpin modern visual recognition systems because they introduce beneficial visual contexts. Conventionally, spatial contexts are passively hidden in the CNN's increasing receptive fields or actively encoded by non-local convolution. Yet, the non-local spatial interactions are not across scales, and thus they fail to capture the non-local contexts of objects (or parts) residing in different scales. To this end, we propose a fully active feature interaction across both space and scales, called Feature Pyramid Transformer (FPT). It transforms any feature pyramid into another feature pyramid of the same size but with richer contexts, by using three specially designed transformers in self-level, top-down, and bottom-up interaction fashion. FPT serves as a generic visual backbone with fair computational overhead. We conduct extensive experiments in both instance-level (i.e., object detection and instance segmentation) and pixel-level segmentation tasks, using various backbones and head networks, and observe consistent improvement over all the baselines and the state-of-the-art methods.
Abstract（参考訳）: 空間とスケールにまたがる特徴的相互作用は、有益な視覚コンテキストを導入するため、現代の視覚認識システムを支える。伝統的に、空間コンテキストはCNNの受容領域に受動的に隠されるか、非局所的畳み込みによって積極的に符号化される。しかし、非局所的な空間相互作用はスケールを越えたものではないため、異なるスケールに存在する物体(または部分)の非局所的なコンテキストを捉えることができない。そこで本稿では,FPT (Feature Pyramid Transformer) と呼ばれる,空間とスケールをまたいだ完全な機能相互作用を提案する。任意の特徴ピラミッドを同じ大きさの別の特徴ピラミッドに変換するが、よりリッチなコンテキストで、自己レベル、トップダウン、ボトムアップのインタラクションスタイルで3つの特別に設計されたトランスフォーマーを使用する。 FPTは、計算オーバーヘッドが一定である一般的な視覚バックボーンとして機能する。我々は,様々なバックボーンとヘッドネットワークを用いて,インスタンスレベル(オブジェクト検出とインスタンスセグメンテーション)とピクセルレベルのセグメンテーションタスクの両方で広範な実験を行い,すべてのベースラインと最先端の手法に対する一貫した改善を観察する。

関連論文リスト

M$^3$-VOS: Multi-Phase, Multi-Transition, and Multi-Scenery Video Object Segmentation [51.82272563578793]
本稿では,その視覚的特徴と潜在的な形態的・外見的変化に基づいて,現実世界の物体を分類するセグメンテーションにおける位相の概念を紹介する。本稿では,Multi-Phase,Multi-Transition,Multi-Scenery Video Object (M$3$-VOS) という新しいベンチマークを提案し,モデルが対象相を理解する能力を検証する。本稿では,リバーサルリファインメントによりその性能を向上させる新しいプラグアンドプレイモデルであるReVOSを提案する。
論文参考訳（メタデータ） (2024-12-18T12:50:11Z)
Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。 PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文参考訳（メタデータ） (2024-07-26T06:29:09Z)
FMRT: Learning Accurate Feature Matching with Reconciliatory Transformer [29.95553680263075]
本稿では,複数の受容場と異なる特徴を適応的に整合する検出不要な手法であるFMRTを提案する。 FMRTは、ポーズ推定、視覚的ローカライゼーション、ホモグラフィー推定、画像マッチングなど、複数のベンチマークで素晴らしいパフォーマンスを得る。
論文参考訳（メタデータ） (2023-10-20T15:54:18Z)
Exploiting Inductive Bias in Transformer for Point Cloud Classification and Segmentation [22.587913528540465]
本稿では,新しいインダクティブバイアス支援トランス (IBT) 法を設計し,点間関係を学習する。局所的特徴学習は相対的位置、注意的特徴プーリングを通じて行われる。分類タスクと分割タスクにおいて,その優位性を実験的に示す。
論文参考訳（メタデータ） (2023-04-27T12:17:35Z)
Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文参考訳（メタデータ） (2022-12-28T03:45:56Z)
Centralized Feature Pyramid for Object Detection [53.501796194901964]
視覚的特徴ピラミッドは、広範囲のアプリケーションにおいて、有効性と効率の両方において、その優位性を示している。本稿では,オブジェクト検出のためのOLO特徴ピラミッドを提案する。
論文参考訳（メタデータ） (2022-10-05T08:32:54Z)
ScaleFormer: Revisiting the Transformer-based Backbones from a Scale-wise Perspective for Medical Image Segmentation [16.995195979992015]
医用画像セグメンテーションのための新しいビジョントランスフォーマーベースのバックボーンであるScaleFormerを提案する。スケールワイド・スケール・イン・スケール・トランスフォーマーは,CNNをベースとした局所的特徴と,トランスフォーマーをベースとしたグローバルなキューをそれぞれのスケールで組み合わせるように設計されている。簡易かつ効果的な空間認識型大規模変圧器は,複数のスケールで接続領域間で相互作用するように設計されている。
論文参考訳（メタデータ） (2022-07-29T08:55:00Z)
RoME: Role-aware Mixture-of-Expert Transformer for Text-to-Video Retrieval [66.2075707179047]
そこで本研究では,テキストと動画を3段階に切り離した,新しい混在型トランスフォーマーRoMEを提案する。我々はトランスフォーマーに基づくアテンション機構を用いて、グローバルレベルとローカルレベルの両方で視覚とテキストの埋め込みを完全に活用する。提案手法は,YouCook2 および MSR-VTT データセットの最先端手法よりも優れている。
論文参考訳（メタデータ） (2022-06-26T11:12:49Z)
SemAffiNet: Semantic-Affine Transformation for Point Cloud Segmentation [94.11915008006483]
ポイントクラウドセマンティックセグメンテーションのためのSemAffiNetを提案する。我々はScanNetV2とNYUv2データセットについて広範な実験を行った。
論文参考訳（メタデータ） (2022-05-26T17:00:23Z)
Point Cloud Learning with Transformer [2.3204178451683264]
我々は,マルチレベルマルチスケールポイントトランスフォーマ(mlmspt)と呼ばれる新しいフレームワークを提案する。具体的には、点ピラミッド変換器を用いて、多様な分解能やスケールを持つ特徴をモデル化する。マルチレベルトランスモジュールは、各スケールの異なるレベルからコンテキスト情報を集約し、それらの相互作用を強化するように設計されている。
論文参考訳（メタデータ） (2021-04-28T08:39:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。