論文の概要: Green Hierarchical Vision Transformer for Masked Image Modeling
- arxiv url: http://arxiv.org/abs/2205.13515v1
- Date: Thu, 26 May 2022 17:34:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 14:20:10.256926
- Title: Green Hierarchical Vision Transformer for Masked Image Modeling
- Title(参考訳): マスク画像モデリングのためのグリーン階層視覚トランスフォーマ
- Authors: Lang Huang, Shan You, Mingkai Zheng, Fei Wang, Chen Qian, Toshihiko
Yamasaki
- Abstract要約: 階層型視覚変換器(ViT)を用いたマスク付き画像モデリングのための効率的な手法を提案する。
グループウィンドウのアテンションスキームは,ディバイド・アンド・コンカエ戦略に従って設計する。
グループ化されたパッチに対する注意の全体的なコストを最小限に抑えるため、動的プログラミングアルゴリズムによるグループ化戦略をさらに改善する。
- 参考スコア(独自算出の注目度): 54.14989750044489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an efficient approach for Masked Image Modeling (MIM) with
hierarchical Vision Transformers (ViTs), e.g., Swin Transformer, allowing the
hierarchical ViTs to discard masked patches and operate only on the visible
ones. Our approach consists of two key components. First, for the window
attention, we design a Group Window Attention scheme following the
Divide-and-Conquer strategy. To mitigate the quadratic complexity of the
self-attention w.r.t. the number of patches, group attention encourages a
uniform partition that visible patches within each local window of arbitrary
size can be grouped with equal size, where masked self-attention is then
performed within each group. Second, we further improve the grouping strategy
via the Dynamic Programming algorithm to minimize the overall computation cost
of the attention on the grouped patches. As a result, MIM now can work on
hierarchical ViTs in a green and efficient way. For example, we can train the
hierarchical ViTs about 2.7$\times$ faster and reduce the GPU memory usage by
70%, while still enjoying competitive performance on ImageNet classification
and the superiority on downstream COCO object detection benchmarks. Code and
pre-trained models have been made publicly available at
https://github.com/LayneH/GreenMIM.
- Abstract(参考訳): 本稿では,階層型視覚変換器(ViT)を用いたマスク付き画像モデリング(MIM)の効率的な手法を提案する。
このアプローチは2つの重要なコンポーネントで構成されています。
まず、ウィンドウの注意のために、分割・分割戦略に従うグループウィンドウの注意スキームを設計する。
パッチ数の2次的な複雑さを軽減するため、グループ注意は、任意のサイズの各ローカルウィンドウ内の可視パッチを同じ大きさでグループ化し、マスキングされたセルフアテンションを各グループ内で実行するように、均一な分割を奨励する。
第2に,動的プログラミングアルゴリズムによるグループ化戦略をさらに改善し,グループ化パッチに対する注意の全体的な計算コストを最小化する。
その結果、MIMはグリーンで効率的な方法で階層型のViTを開発できるようになった。
例えば、階層型のViTを約2.7$\timesでトレーニングでき、GPUメモリ使用量を70%削減できます。
コードと事前訓練されたモデルはhttps://github.com/LayneH/GreenMIMで公開されている。
関連論文リスト
- Toward a Deeper Understanding: RetNet Viewed through Convolution [25.8904146140577]
Vision Transformer (ViT)はCNNよりもグローバルな依存関係を学習できるが、CNN固有のローカリティは高価なトレーニングリソースに取って代わることができる。
本稿では、CNNの観点からRetNetの有効性について検討し、視覚領域に合わせたRetNetの変種を示す。
本稿では,1つのマスクが2つの学習可能なパラメータしか持たない新しいガウス混合マスク(GMM)を提案する。
論文 参考訳(メタデータ) (2023-09-11T10:54:22Z) - Image as Set of Points [60.30495338399321]
コンテキストクラスタ(CoC)は、イメージを非組織的なポイントの集合と見なし、単純化されたクラスタリングアルゴリズムによって特徴を抽出する。
われわれのCoCは畳み込みと無注意で、空間的相互作用のためのクラスタリングアルゴリズムにのみ依存している。
論文 参考訳(メタデータ) (2023-03-02T18:56:39Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。
カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。
本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文 参考訳(メタデータ) (2022-11-03T13:19:23Z) - Uniform Masking: Enabling MAE Pre-training for Pyramid-based Vision
Transformers with Locality [28.245387355693545]
Masked AutoEncoder (MAE)は、エレガントな非対称エンコーダデコーダ設計により、視覚的自己超越領域のトレンドを導いた。
本研究では,局所性のあるピラミッドベースのViTのMAE事前学習を実現するために,一様マスキング(UM)を提案する。
論文 参考訳(メタデータ) (2022-05-20T10:16:30Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。
T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。
例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2021-01-28T13:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。