論文の概要: Keep It SimPool: Who Said Supervised Transformers Suffer from Attention
Deficit?
- arxiv url: http://arxiv.org/abs/2309.06891v1
- Date: Wed, 13 Sep 2023 11:28:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 14:30:34.230814
- Title: Keep It SimPool: Who Said Supervised Transformers Suffer from Attention
Deficit?
- Title(参考訳): シムプール氏:監督トランスフォーマーは注意の欠如に苦しんでいると誰が言ったか?
- Authors: Bill Psomas, Ioannis Kakogeorgiou, Konstantinos Karantzalos, Yannis
Avrithis
- Abstract要約: 我々はジェネリックプーリングフレームワークを開発し、その上で既存のメソッドをインスタンス化として定式化する。
我々は、畳み込みエンコーダとトランスフォーマーエンコーダの両方のデフォルト機能を置き換える、シンプルな注目ベースのプール機構であるSimPoolを導出する。
我々の知る限り、私たちは、アーキテクチャの変更や明示的な損失を伴わずに、教師付きトランスフォーマーにおいて、少なくとも自己教師付きトランスフォーマーと同程度の品質の注意マップを初めて入手しました。
- 参考スコア(独自算出の注目度): 14.124963195008567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Convolutional networks and vision transformers have different forms of
pairwise interactions, pooling across layers and pooling at the end of the
network. Does the latter really need to be different? As a by-product of
pooling, vision transformers provide spatial attention for free, but this is
most often of low quality unless self-supervised, which is not well studied. Is
supervision really the problem?
In this work, we develop a generic pooling framework and then we formulate a
number of existing methods as instantiations. By discussing the properties of
each group of methods, we derive SimPool, a simple attention-based pooling
mechanism as a replacement of the default one for both convolutional and
transformer encoders. We find that, whether supervised or self-supervised, this
improves performance on pre-training and downstream tasks and provides
attention maps delineating object boundaries in all cases. One could thus call
SimPool universal. To our knowledge, we are the first to obtain attention maps
in supervised transformers of at least as good quality as self-supervised,
without explicit losses or modifying the architecture. Code at:
https://github.com/billpsomas/simpool.
- Abstract(参考訳): 畳み込みネットワークと視覚トランスフォーマーは、異なる形式の対向相互作用を持ち、層をまたいでプールし、ネットワークの最後にプールする。
後者は本当に違う必要があるのでしょうか?
プールの副産物として、視覚変換器は空間的注意を無料で提供するが、多くの場合、自己監督的でないと品質が低い。
監督は本当に問題なのか?
本研究では,汎用的なプーリングフレームワークを開発し,既存のメソッドをインスタンス化として定式化する。
それぞれのメソッドの性質を議論することで、コンボリューショナルエンコーダとトランスフォーマーエンコーダの両方に対するデフォルト値の置き換えとして、シンプルなアテンションベースのプール機構であるSimPoolを導出する。
監督であれ、自己監督であれ、これは事前トレーニングとダウンストリームタスクのパフォーマンスを改善し、すべてのケースでオブジェクト境界を示す注意マップを提供する。
従って、SimPool Universalと呼ぶことができる。
我々の知る限りでは、我々は少なくとも自己監督と同等の品質の教師付きトランスフォーマーにおいて、明示的な損失やアーキテクチャの変更を伴わずにアテンションマップを入手した最初の人物である。
コード: https://github.com/billpsomas/simpool。
関連論文リスト
- Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - Augmenting Convolutional networks with attention-based aggregation [55.97184767391253]
我々は,非局所的推論を実現するために,注目に基づくグローバルマップを用いた畳み込みネットワークの強化方法を示す。
この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。
これは、特にメモリ消費の点で、精度と複雑さの間の驚くほど競争力のあるトレードオフをもたらす。
論文 参考訳(メタデータ) (2021-12-27T14:05:41Z) - MetaFormer is Actually What You Need for Vision [175.86264904607785]
変換器のアテンションモジュールを、恥ずかしいほど単純な空間プーリング演算子に置き換える。
意外なことに、複数のコンピュータビジョンタスクにおいて、導出モデルが競合性能を達成することを観察する。
論文 参考訳(メタデータ) (2021-11-22T18:52:03Z) - AdaPool: Exponential Adaptive Pooling for Information-Retaining
Downsampling [82.08631594071656]
畳み込み層は畳み込みニューラルネットワーク(CNN)の重要な構成要素である
適応的で指数関数的に重み付けされたアダプール法を提案する。
adaPoolは画像やビデオの分類やオブジェクト検出など,さまざまなタスクを通じて,ディテールの保存性の向上を実証する。
論文 参考訳(メタデータ) (2021-11-01T08:50:37Z) - P2T: Pyramid Pooling Transformer for Scene Understanding [62.41912463252468]
私たちはP2Tと呼ばれる下流タスク指向のトランスネットワークを構築します。
プールベースのMHSAを組み込んで、P2Tと呼ばれる下流タスク指向のトランスネットワークを構築しました。
論文 参考訳(メタデータ) (2021-06-22T18:28:52Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。