論文の概要: Bootstrapping SparseFormers from Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2312.01987v2
- Date: Thu, 4 Apr 2024 14:40:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 19:53:21.749767
- Title: Bootstrapping SparseFormers from Vision Foundation Models
- Title(参考訳): ビジョンファウンデーションモデルによるスパースフォーマーのブートストラップ
- Authors: Ziteng Gao, Zhan Tong, Kevin Qinghong Lin, Joya Chen, Mike Zheng Shou,
- Abstract要約: 我々は、VTベースの視覚基盤モデルからSparseFormersをシンプルで効率的な方法でブートストラップすることを提案する。
ブートストラップ付きunimodal SparseFormerは、49トークンしか持たないIN-1Kで84.9%の精度に達することができる。
CLIP-bootstrapped SparseFormersは、単語を見ることなく出力空間を言語に合わせることで、マルチモーダルな大規模言語モデルにおける効率的な視覚エンコーダとして機能する。
- 参考スコア(独自算出の注目度): 24.029898310518046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recently proposed SparseFormer architecture provides an alternative approach to visual understanding by utilizing a significantly lower number of visual tokens via adjusting RoIs, greatly reducing computational costs while still achieving promising performance. However, training SparseFormers from scratch is still expensive, and scaling up the number of parameters can be challenging. In this paper, we propose to bootstrap SparseFormers from ViT-based vision foundation models in a simple and efficient way. Since the majority of SparseFormer blocks are the standard transformer ones, we can inherit weights from large-scale pre-trained vision transformers and freeze them as much as possible. Therefore, we only need to train the SparseFormer-specific lightweight focusing transformer to adjust token RoIs and fine-tune a few early pre-trained blocks to align the final token representation. In such a way, we can bootstrap SparseFormer architectures from various large-scale pre-trained models (e.g., IN-21K pre-trained AugRegs or CLIPs) using a rather smaller amount of training samples (e.g., IN-1K) and without labels or captions within just a few hours. As a result, the bootstrapped unimodal SparseFormer (from AugReg-ViT-L/16-384) can reach 84.9% accuracy on IN-1K with only 49 tokens, and the multimodal SparseFormer from CLIPs also demonstrates notable zero-shot performance with highly reduced computational cost without seeing any caption during the bootstrapping procedure. In addition, CLIP-bootstrapped SparseFormers, which align the output space with language without seeing a word, can serve as efficient vision encoders in multimodal large language models. Code and models are available at https://github.com/showlab/sparseformer
- Abstract(参考訳): 最近提案されたSparseFormerアーキテクチャは、RoIを調整し、計算コストを大幅に削減し、有望な性能を保ちながら、視覚的トークンの少ない数を活用することで、視覚的理解に代替的なアプローチを提供する。
しかし、スクラッチからSparseFormerをトレーニングするのは依然として高価であり、パラメータの数をスケールアップすることは難しい。
本稿では,視覚基盤モデルからSparseFormersをシンプルかつ効率的な方法でブートストラップすることを提案する。
SparseFormerブロックの大部分は標準のトランスなので、大規模な事前学習されたビジョントランスからウェイトを継承し、可能な限り凍結することができる。
したがって、SparseFormer固有の軽量フォーカス変換器をトレーニングしてトークンRoIを調整し、いくつかの初期トレーニング済みブロックを微調整して、最終的なトークン表現を調整するだけでよい。
このような方法で,大規模な事前トレーニングモデル(例えば,IN-21K事前トレーニングされたAugRegsやCLIP)から,比較的少ないトレーニングサンプル(例えば,IN-1K)とラベルやキャプションなしで,SparseFormerアーキテクチャをブートストラップすることが可能になります。
結果として、ブートストラップ付きunimodal SparseFormer(AugReg-ViT-L/16-384)は49個のトークンを持つIN-1K上で84.9%の精度に達し、CLIPsのマルチモーダルSparseFormerはブートストラップ手順中にキャプションを見ることなく、計算コストを大幅に削減して、顕著なゼロショット性能を示す。
さらに、単語を見ることなく出力空間を言語と整列させるCLIP-bootstrapped SparseFormersは、マルチモーダルな大規模言語モデルにおける効率的な視覚エンコーダとして機能する。
コードとモデルはhttps://github.com/showlab/sparseformerで入手できる。
関連論文リスト
- Patch-Level Training for Large Language Models [69.67438563485887]
本稿では,Large Language Models (LLM) に対するパッチレベルのトレーニングを紹介する。
パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。
これに続いて、モデルは推論モードに合わせて、残りのトレーニングデータに対するトークンレベルのトレーニングを継続する。
論文 参考訳(メタデータ) (2024-07-17T15:48:39Z) - ReALLM: A general framework for LLM compression and fine-tuning [11.738510106847414]
ReALLMは、事前訓練された言語モデルの圧縮とメモリ効率の適応のための新しいアプローチである。
重みのみの量子化アルゴリズムは、トレーニングなしで3ドルビットの予算で言語生成タスク(C4とWikiText-2)の最良の結果を得る。
論文 参考訳(メタデータ) (2024-05-21T18:50:51Z) - SparseFormer: Sparse Visual Recognition via Limited Latent Tokens [30.494412497158237]
本稿では,人間のスパース認識をエンドツーエンドに模倣する新しい手法であるスパースホルダーを提案する。
SparseFormerは画像空間上の高密度な操作の多くを回避し、計算コストを大幅に削減する。
ImageNet分類ベンチマークデータセットの実験では、SparseFormerは標準モデルや確立されたモデルと同等のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-04-07T17:59:58Z) - FlexiViT: One Model for All Patch Sizes [100.52574011880571]
ビジョントランスフォーマーは、それらをパッチにスライスすることで、画像をシーケンスに変換する。
これらのパッチのサイズは速度/精度のトレードオフを制御し、より小さなパッチはより高い計算コストで高い精度に繋がる。
トレーニング時にパッチサイズをランダムにすると、一組の重み付けが発生し、広範囲のパッチサイズでうまく機能することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:18:38Z) - Nonparametric Masked Language Modeling [113.71921977520864]
既存の言語モデル(LM)は、有限語彙上のソフトマックスでトークンを予測する。
NPMは,このソフトマックスを参照コーパス内の各フレーズの非パラメトリック分布に置き換える最初の非パラメトリックマスク付き言語モデルである。
NPMは、コントラスト目的と全コーパス検索に対するバッチ内近似で効率的に訓練することができる。
論文 参考訳(メタデータ) (2022-12-02T18:10:42Z) - SdAE: Self-distillated Masked Autoencoder [95.3684955370897]
本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。
300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
論文 参考訳(メタデータ) (2022-07-31T15:07:25Z) - PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers [102.7922200135147]
本稿では、視覚変換器のBERT事前学習のためのより良いコードブックについて検討する。
対照的に、NLPフィールドの離散トークンは自然に非常に意味がある。
提案した知覚コードブックが生成する視覚的トークンは,より優れた意味を持つことを示す。
論文 参考訳(メタデータ) (2021-11-24T18:59:58Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - How fine can fine-tuning be? Learning efficient language models [8.25186900320093]
大量のラベルのないテキストコーパスで事前訓練された言語モデルを考えると、タスクを学習するためには、非常に軽い教師付き微調整しか必要ありません。
もっとも重要なレイヤのみを微調整するのに十分であることを示す。
その結果、事前訓練されたパラメータの特定の層に一定の数のエントリを0に設定するだけで、巨大な言語モデルの微調整が実現できる。
論文 参考訳(メタデータ) (2020-04-24T20:31:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。