論文の概要: Group Generalized Mean Pooling for Vision Transformer
- arxiv url: http://arxiv.org/abs/2212.04114v1
- Date: Thu, 8 Dec 2022 07:13:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 15:42:43.457048
- Title: Group Generalized Mean Pooling for Vision Transformer
- Title(参考訳): 視覚トランスフォーマーのためのグループ一般化平均プーリング
- Authors: Byungsoo Ko, Han-Gyu Kim, Byeongho Heo, Sangdoo Yun, Sanghyuk Chun,
Geonmo Gu, Wonjae Kim
- Abstract要約: Group Generalized Mean(GGeM)は、視覚変換器(ViT)の簡易かつ強力なプーリング戦略である。
GGeMのエクスプロイトでは、ベースラインに比べて0.1%pから0.7%pのパフォーマンスが向上する。
GGeMは、画像検索やマルチモーダル表現学習タスクにおいて、既存のプーリング戦略より優れている。
- 参考スコア(独自算出の注目度): 38.80426264049567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformer (ViT) extracts the final representation from either class
token or an average of all patch tokens, following the architecture of
Transformer in Natural Language Processing (NLP) or Convolutional Neural
Networks (CNNs) in computer vision. However, studies for the best way of
aggregating the patch tokens are still limited to average pooling, while
widely-used pooling strategies, such as max and GeM pooling, can be considered.
Despite their effectiveness, the existing pooling strategies do not consider
the architecture of ViT and the channel-wise difference in the activation maps,
aggregating the crucial and trivial channels with the same importance. In this
paper, we present Group Generalized Mean (GGeM) pooling as a simple yet
powerful pooling strategy for ViT. GGeM divides the channels into groups and
computes GeM pooling with a shared pooling parameter per group. As ViT groups
the channels via a multi-head attention mechanism, grouping the channels by
GGeM leads to lower head-wise dependence while amplifying important channels on
the activation maps. Exploiting GGeM shows 0.1%p to 0.7%p performance boosts
compared to the baselines and achieves state-of-the-art performance for
ViT-Base and ViT-Large models in ImageNet-1K classification task. Moreover,
GGeM outperforms the existing pooling strategies on image retrieval and
multi-modal representation learning tasks, demonstrating the superiority of
GGeM for a variety of tasks. GGeM is a simple algorithm in that only a few
lines of code are necessary for implementation.
- Abstract(参考訳): Vision Transformer(ViT)は、コンピュータビジョンにおけるTransformer in Natural Language Processing(NLP)またはConvolutional Neural Networks(CNN)のアーキテクチャに従って、クラストークンまたはすべてのパッチトークンの平均から最終表現を抽出する。
しかし、パッチトークンを集約する最良の方法の研究は依然として平均プールに限られており、MaxやGeMプールのような広く使われているプール戦略も考慮できる。
有効性にもかかわらず、既存のプーリング戦略はvitのアーキテクチャやアクティベーションマップのチャネルごとの差異を考慮せず、同じ重要性を持つ重要かつ自明なチャネルを集約している。
本稿では,グループ一般化平均(GGeM)プーリングを,VTの単純かつ強力なプーリング戦略として提示する。
GGeMはチャネルをグループに分割し、グループ毎に共有プールパラメータでGeMプーリングを計算する。
ViTがマルチヘッドアテンション機構を介してチャネルをグループ化すると、チャネルをGGeMでグループ化すると、アクティベーションマップ上の重要なチャネルを増幅しながら、頭回り依存度が低下する。
エクスプロイトGGeMはベースラインと比較して0.1%pから0.7%pのパフォーマンス向上を示し、ImageNet-1K分類タスクでViT-BaseおよびViT-Largeモデルの最先端のパフォーマンスを達成する。
さらに、GGeMは、画像検索およびマルチモーダル表現学習タスクにおける既存のプーリング戦略よりも優れており、様々なタスクにおけるGGeMの優位性を示している。
GGeMは単純なアルゴリズムであり、実装には数行のコードしか必要としない。
関連論文リスト
- UnSeGArmaNet: Unsupervised Image Segmentation using Graph Neural Networks with Convolutional ARMA Filters [10.940349832919699]
事前学習したViTを用いた教師なしセグメンテーションフレームワークを提案する。
画像内に固有のグラフ構造を利用することにより,セグメント化における顕著な性能を実現する。
提案手法は,ベンチマーク画像セグメンテーションデータセット上での最先端性能(教師付き手法に匹敵する)を提供する。
論文 参考訳(メタデータ) (2024-10-08T15:10:09Z) - Plug n' Play: Channel Shuffle Module for Enhancing Tiny Vision
Transformers [15.108494142240993]
視覚変換器(ViT)は様々なコンピュータビジョンタスクにおいて顕著な性能を示した。
高い計算複雑性は、ViTsのメモリとコンピューティングリソースの制限のあるデバイスへの適用性を妨げている。
小型VTを改良するための新しいチャネルシャッフルモジュールを提案する。
論文 参考訳(メタデータ) (2023-10-09T11:56:35Z) - GPViT: A High Resolution Non-Hierarchical Vision Transformer with Group
Propagation [25.689520892609213]
本稿では,高分解能特徴を持つ一般視覚認識のための新しい非階層型トランスフォーマーモデルを提案する。
画像分類,セマンティックセグメンテーション,オブジェクト検出,インスタンスセグメンテーションなど,さまざまな視覚的タスクにおけるGPViTの評価を行った。
論文 参考訳(メタデータ) (2022-12-13T18:26:00Z) - Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - SegViT: Semantic Segmentation with Plain Vision Transformers [91.50075506561598]
意味的セグメンテーションのための平易な視覚変換器(ViT)の能力について検討する。
本研究では,学習可能なクラストークンの集合と空間特徴マップの類似性をセグメンテーションマスクに転送するATMモジュールを提案する。
実験の結果,ATMモジュールを用いたSegVitは,通常のViTバックボーンよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-10-12T00:30:26Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - Green Hierarchical Vision Transformer for Masked Image Modeling [54.14989750044489]
階層型視覚変換器(ViT)を用いたマスク付き画像モデリングのための効率的な手法を提案する。
グループウィンドウのアテンションスキームは,ディバイド・アンド・コンカエ戦略に従って設計する。
グループ化されたパッチに対する注意の全体的なコストを最小限に抑えるため、動的プログラミングアルゴリズムによるグループ化戦略をさらに改善する。
論文 参考訳(メタデータ) (2022-05-26T17:34:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。