論文の概要: P2T: Pyramid Pooling Transformer for Scene Understanding
- arxiv url: http://arxiv.org/abs/2106.12011v1
- Date: Tue, 22 Jun 2021 18:28:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 02:58:01.881536
- Title: P2T: Pyramid Pooling Transformer for Scene Understanding
- Title(参考訳): P2T:シーン理解のためのピラミッドプール変圧器
- Authors: Yu-Huan Wu, Yun Liu, Xin Zhan, Ming-Ming Cheng
- Abstract要約: 私たちはP2Tと呼ばれる下流タスク指向のトランスネットワークを構築します。
プールベースのMHSAを組み込んで、P2Tと呼ばれる下流タスク指向のトランスネットワークを構築しました。
- 参考スコア(独自算出の注目度): 62.41912463252468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper jointly resolves two problems in vision transformer: i) the
computation of Multi-Head Self-Attention (MHSA) has high computational/space
complexity; ii) recent vision transformer networks are overly tuned for image
classification, ignoring the difference between image classification (simple
scenarios, more similar to NLP) and downstream scene understanding tasks
(complicated scenarios, rich structural and contextual information). To this
end, we note that pyramid pooling has been demonstrated to be effective in
various vision tasks owing to its powerful context abstraction, and its natural
property of spatial invariance is suitable to address the loss of structural
information (problem ii)). Hence, we propose to adapt pyramid pooling to MHSA
for alleviating its high requirement on computational resources (problem i)).
In this way, this pooling-based MHSA can well address the above two problems
and is thus flexible and powerful for downstream scene understanding tasks.
Plugged with our pooling-based MHSA, we build a downstream-task-oriented
transformer network, dubbed Pyramid Pooling Transformer (P2T). Extensive
experiments demonstrate that, when applied P2T as the backbone network, it
shows substantial superiority in various downstream scene understanding tasks
such as semantic segmentation, object detection, instance segmentation, and
visual saliency detection, compared to previous CNN- and transformer-based
networks. The code will be released at https://github.com/yuhuan-wu/P2T. Note
that this technical report will keep updating.
- Abstract(参考訳): i)マルチヘッド自己認識(MHSA)の計算は計算/空間の複雑さが高い;i)近年のビジョントランスフォーマーネットワークは画像分類(NLPに類似した単純なシナリオ)と下流シーン理解タスク(複雑なシナリオ、リッチな構造とコンテキスト情報)の違いを無視して、画像分類のために過度に調整されている。
この目的のために、ピラミッドプーリングは、その強力なコンテキスト抽象化によって様々な視覚タスクに有効であることが実証されており、その空間的不変性は、構造情報の喪失に対処するのに適している(problem ii)。
そこで本研究では,MHSAにピラミッドプーリングを適用することで,計算資源に対する高い要求を緩和することを提案する。
このように、このプーリングベースのMHSAは上記の2つの問題にうまく対処することができ、下流のシーン理解タスクに柔軟で強力である。
プールベースのMHSAに接続して、P2T(Maraamid Pooling Transformer)と呼ばれる下流タスク指向のトランスネットワークを構築しました。
大規模な実験により、P2Tをバックボーンネットワークに適用すると、従来のCNNやトランスフォーマーベースネットワークと比較して、セマンティックセグメンテーション、オブジェクト検出、インスタンスセグメンテーション、ビジュアルサリエンシ検出といった様々な下流シーン理解タスクにおいてかなり優れていることが示された。
コードはhttps://github.com/yuhuan-wu/p2tでリリースされる。
この技術レポートは引き続き更新される。
関連論文リスト
- Adaptive Step-size Perception Unfolding Network with Non-local Hybrid Attention for Hyperspectral Image Reconstruction [0.39134031118910273]
FISTAアルゴリズムに基づく深層展開ネットワークであるASPUNを提案する。
さらに,非局所的ハイブリッドアテンショントランス (NHAT) モジュールを設計し,コンバータの受容場特性をフル活用する。
実験の結果, ASPUNは既存のSOTAアルゴリズムよりも優れ, 最高の性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-07-04T16:09:52Z) - CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - Dual-Tasks Siamese Transformer Framework for Building Damage Assessment [11.888964682446879]
トランスフォーマーによる損傷評価アーキテクチャ(DamFormer)の設計の試みについて述べる。
我々の知る限り、このような深層トランスフォーマーベースのネットワークがマルチテンポラルリモートセンシングの解釈タスクのために提案されたのは、これが初めてである。
論文 参考訳(メタデータ) (2022-01-26T14:11:16Z) - Augmenting Convolutional networks with attention-based aggregation [55.97184767391253]
我々は,非局所的推論を実現するために,注目に基づくグローバルマップを用いた畳み込みネットワークの強化方法を示す。
この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。
これは、特にメモリ消費の点で、精度と複雑さの間の驚くほど競争力のあるトレードオフをもたらす。
論文 参考訳(メタデータ) (2021-12-27T14:05:41Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。