論文の概要: Bootstrapping SparseFormers from Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2312.01987v2
- Date: Thu, 4 Apr 2024 14:40:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 19:53:21.749767
- Title: Bootstrapping SparseFormers from Vision Foundation Models
- Title(参考訳): ビジョンファウンデーションモデルによるスパースフォーマーのブートストラップ
- Authors: Ziteng Gao, Zhan Tong, Kevin Qinghong Lin, Joya Chen, Mike Zheng Shou,
- Abstract要約: 我々は、VTベースの視覚基盤モデルからSparseFormersをシンプルで効率的な方法でブートストラップすることを提案する。
ブートストラップ付きunimodal SparseFormerは、49トークンしか持たないIN-1Kで84.9%の精度に達することができる。
CLIP-bootstrapped SparseFormersは、単語を見ることなく出力空間を言語に合わせることで、マルチモーダルな大規模言語モデルにおける効率的な視覚エンコーダとして機能する。
- 参考スコア(独自算出の注目度): 24.029898310518046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recently proposed SparseFormer architecture provides an alternative approach to visual understanding by utilizing a significantly lower number of visual tokens via adjusting RoIs, greatly reducing computational costs while still achieving promising performance. However, training SparseFormers from scratch is still expensive, and scaling up the number of parameters can be challenging. In this paper, we propose to bootstrap SparseFormers from ViT-based vision foundation models in a simple and efficient way. Since the majority of SparseFormer blocks are the standard transformer ones, we can inherit weights from large-scale pre-trained vision transformers and freeze them as much as possible. Therefore, we only need to train the SparseFormer-specific lightweight focusing transformer to adjust token RoIs and fine-tune a few early pre-trained blocks to align the final token representation. In such a way, we can bootstrap SparseFormer architectures from various large-scale pre-trained models (e.g., IN-21K pre-trained AugRegs or CLIPs) using a rather smaller amount of training samples (e.g., IN-1K) and without labels or captions within just a few hours. As a result, the bootstrapped unimodal SparseFormer (from AugReg-ViT-L/16-384) can reach 84.9% accuracy on IN-1K with only 49 tokens, and the multimodal SparseFormer from CLIPs also demonstrates notable zero-shot performance with highly reduced computational cost without seeing any caption during the bootstrapping procedure. In addition, CLIP-bootstrapped SparseFormers, which align the output space with language without seeing a word, can serve as efficient vision encoders in multimodal large language models. Code and models are available at https://github.com/showlab/sparseformer
- Abstract(参考訳): 最近提案されたSparseFormerアーキテクチャは、RoIを調整し、計算コストを大幅に削減し、有望な性能を保ちながら、視覚的トークンの少ない数を活用することで、視覚的理解に代替的なアプローチを提供する。
しかし、スクラッチからSparseFormerをトレーニングするのは依然として高価であり、パラメータの数をスケールアップすることは難しい。
本稿では,視覚基盤モデルからSparseFormersをシンプルかつ効率的な方法でブートストラップすることを提案する。
SparseFormerブロックの大部分は標準のトランスなので、大規模な事前学習されたビジョントランスからウェイトを継承し、可能な限り凍結することができる。
したがって、SparseFormer固有の軽量フォーカス変換器をトレーニングしてトークンRoIを調整し、いくつかの初期トレーニング済みブロックを微調整して、最終的なトークン表現を調整するだけでよい。
このような方法で,大規模な事前トレーニングモデル(例えば,IN-21K事前トレーニングされたAugRegsやCLIP)から,比較的少ないトレーニングサンプル(例えば,IN-1K)とラベルやキャプションなしで,SparseFormerアーキテクチャをブートストラップすることが可能になります。
結果として、ブートストラップ付きunimodal SparseFormer(AugReg-ViT-L/16-384)は49個のトークンを持つIN-1K上で84.9%の精度に達し、CLIPsのマルチモーダルSparseFormerはブートストラップ手順中にキャプションを見ることなく、計算コストを大幅に削減して、顕著なゼロショット性能を示す。
さらに、単語を見ることなく出力空間を言語と整列させるCLIP-bootstrapped SparseFormersは、マルチモーダルな大規模言語モデルにおける効率的な視覚エンコーダとして機能する。
コードとモデルはhttps://github.com/showlab/sparseformerで入手できる。
関連論文リスト
- SparseFormer: Sparse Visual Recognition via Limited Latent Tokens [30.494412497158237]
本稿では,人間のスパース認識をエンドツーエンドに模倣する新しい手法であるスパースホルダーを提案する。
SparseFormerは画像空間上の高密度な操作の多くを回避し、計算コストを大幅に削減する。
ImageNet分類ベンチマークデータセットの実験では、SparseFormerは標準モデルや確立されたモデルと同等のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-04-07T17:59:58Z) - Structured Pruning of Self-Supervised Pre-trained Models for Speech
Recognition and Understanding [43.68557263195205]
自己教師付き音声表現学習(SSL)は、様々な下流タスクで有効であることが示されているが、SSLモデルは通常、大きくて遅い。
このような異種ネットワークを扱うための3つのタスク固有の構造化プルーニング手法を提案する。
LibriSpeech と SLURP の実験により,提案手法は従来の wav2vecbase よりも10% から30% の精度で精度が高く,劣化を伴わずに 40% から 50% の削減が可能であった。
論文 参考訳(メタデータ) (2023-02-27T20:39:54Z) - FlexiViT: One Model for All Patch Sizes [100.52574011880571]
ビジョントランスフォーマーは、それらをパッチにスライスすることで、画像をシーケンスに変換する。
これらのパッチのサイズは速度/精度のトレードオフを制御し、より小さなパッチはより高い計算コストで高い精度に繋がる。
トレーニング時にパッチサイズをランダムにすると、一組の重み付けが発生し、広範囲のパッチサイズでうまく機能することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:18:38Z) - Nonparametric Masked Language Modeling [113.71921977520864]
既存の言語モデル(LM)は、有限語彙上のソフトマックスでトークンを予測する。
NPMは,このソフトマックスを参照コーパス内の各フレーズの非パラメトリック分布に置き換える最初の非パラメトリックマスク付き言語モデルである。
NPMは、コントラスト目的と全コーパス検索に対するバッチ内近似で効率的に訓練することができる。
論文 参考訳(メタデータ) (2022-12-02T18:10:42Z) - SdAE: Self-distillated Masked Autoencoder [95.3684955370897]
本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。
300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
論文 参考訳(メタデータ) (2022-07-31T15:07:25Z) - PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers [102.7922200135147]
本稿では、視覚変換器のBERT事前学習のためのより良いコードブックについて検討する。
対照的に、NLPフィールドの離散トークンは自然に非常に意味がある。
提案した知覚コードブックが生成する視覚的トークンは,より優れた意味を持つことを示す。
論文 参考訳(メタデータ) (2021-11-24T18:59:58Z) - LightSeq: Accelerated Training for Transformer-based Models on GPUs [19.02791119065971]
LightSeqは、GPU上でTransformerベースのモデルの効率的なトレーニングを行うシステムである。
BERT (encoder-only)、GPT (decoder-only)、Transformer (encoder-decoder)など、さまざまなネットワークアーキテクチャをサポートしている。
論文 参考訳(メタデータ) (2021-10-12T03:17:03Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z) - How fine can fine-tuning be? Learning efficient language models [8.25186900320093]
大量のラベルのないテキストコーパスで事前訓練された言語モデルを考えると、タスクを学習するためには、非常に軽い教師付き微調整しか必要ありません。
もっとも重要なレイヤのみを微調整するのに十分であることを示す。
その結果、事前訓練されたパラメータの特定の層に一定の数のエントリを0に設定するだけで、巨大な言語モデルの微調整が実現できる。
論文 参考訳(メタデータ) (2020-04-24T20:31:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。