論文の概要: Bridging The Gaps Between Token Pruning and Full Pre-training via Masked
Fine-tuning
- arxiv url: http://arxiv.org/abs/2310.17177v1
- Date: Thu, 26 Oct 2023 06:03:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 21:40:03.188280
- Title: Bridging The Gaps Between Token Pruning and Full Pre-training via Masked
Fine-tuning
- Title(参考訳): 仮面ファインチューニングによるトーケンプルーニングとフルプレトレーニングのギャップを埋める
- Authors: Fengyuan Shi, Limin Wang
- Abstract要約: 動的視覚変換器はトークンを冗長にプルーニングすることで推論を加速するために使用される。
現在のベースモデルは、通常フルイメージトレーニングを採用し、フルイメージを入力として使用し、フィーチャーマップ全体をフォワードプロセスを通して保持する。
マスクと自己教師付きタスクを行うMAEにインスパイアされた我々は、事前訓練されたベースモデルとトークンプルーニングに基づく動的視覚変換器のギャップを埋めるために、マスク付き微調整を考案した。
- 参考スコア(独自算出の注目度): 19.391064062033436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the success of transformers on various computer vision tasks, they
suffer from excessive memory and computational cost. Some works present dynamic
vision transformers to accelerate inference by pruning redundant tokens. A key
to improving token pruning is using well-trained models as initialization for
faster convergence and better performance. However, current base models usually
adopt full image training, i.e., using full images as inputs and keeping the
whole feature maps through the forward process, which causes inconsistencies
with dynamic models that gradually reduce tokens, including calculation
pattern, information amount and token selection strategy inconsistencies.
Inspired by MAE which performs masking and reconstruction self-supervised task,
we devise masked fine-tuning to bridge the gaps between pre-trained base models
used for initialization and token pruning based dynamic vision transformers, by
masking image patches and predicting the image class label based on left
unmasked patches. Extensive experiments on ImageNet demonstrate that base
models via masked fine-tuning gain strong occlusion robustness and ability
against information loss. With this better initialization, Dynamic ViT achieves
higher accuracies, especially under large token pruning ratios (e.g., 81.9% vs.
81.3%, and 62.3% vs. 58.9% for DeiT based Dynamic ViT/0.8 and Dynamic ViT/0.3).
Moreover, we apply our method into different token pruning based dynamic vision
transformers, different pre-trained models and randomly initialized models to
demonstrate the generalization ability.
- Abstract(参考訳): コンピュータビジョンタスクにおけるトランスフォーマーの成功にもかかわらず、それらは過剰なメモリと計算コストに悩まされている。
いくつかの作品は冗長なトークンを刈り取ることによって推論を加速するために動的ビジョントランスフォーマーを提供する。
トークンプルーニングを改善する鍵は、より高速な収束とパフォーマンス向上のための初期化として、よく訓練されたモデルを使用することである。
しかし、現在のベースモデルは通常、フルイメージを入力として使用し、機能マップ全体をフォワードプロセスで保持するフルイメージトレーニングを採用しており、計算パターン、情報量、トークン選択戦略など、トークンを徐々に減少させる動的モデルとの不整合を引き起こす。
マスキングおよび自己監督タスクを行うmaeに触発されて,初期化に使用する事前学習ベースモデルとトークンプルーニングベースのダイナミックビジョントランスフォーマタとのギャップを埋めるために,マスク付き微調整を考案し,画像パッチをマスキングし,左のアンマスクパッチに基づいて画像クラスラベルを予測した。
ImageNetでの大規模な実験により、マスクされた微調整によるベースモデルは、強い閉塞性と情報損失に対する能力を得ることが示された。
このより良い初期化により、Dynamic ViTは特に大きなトークンプルーニング比(例えば、81.9%対81.3%、DeiTベースのDynamic ViT/0.8とDynamic ViT/0.3)で高い精度を達成する。
さらに,本手法を異なるトークンプルーニングに基づく動的視覚変換器,異なる事前学習モデル,ランダムに初期化モデルに適用し,一般化能力を示す。
関連論文リスト
- No Token Left Behind: Efficient Vision Transformer via Dynamic Token
Idling [55.203866875294516]
視覚変換器(ViT)はコンピュータビジョンタスクにおいて優れた性能を示した。
ViTの計算負担を軽減するために,様々なトークンプルーニング技術が導入されている。
性能と効率の優れたトレードオフを実現するための動的トークンアイドルベースのIdleViTを提案する。
論文 参考訳(メタデータ) (2023-10-09T12:10:41Z) - Centroid-centered Modeling for Efficient Vision Transformer Pre-training [44.24223088955106]
Masked Image Modeling (MIM)は、視覚変換器(ViT)を用いた新しい自己教師型ビジョン事前学習パラダイムである。
提案するCentroid-based approach, CCViT は k-means clustering を利用して画像モデリングのためのCentroid を得る。
提案手法は, 外部監督や蒸留訓練を伴わずに, 最近のベースラインと競合する結果が得られる。
論文 参考訳(メタデータ) (2023-03-08T15:34:57Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - BEiT: BERT Pre-Training of Image Transformers [43.704968112586876]
本稿では,画像変換器の双方向表現を表す自己教師型視覚表現モデルBEiTを紹介する。
具体的には、各画像には事前トレーニング、すなわち画像パッチと視覚トークンの2つのビューがある。
まず最初にオリジナル画像を視覚トークンに"トークン"します。次にランダムに画像パッチをマスクして、バックボーントランスフォーマーに入力します。
事前学習の目的は、破損した画像パッチに基づいて元の視覚トークンを復元することである。
論文 参考訳(メタデータ) (2021-06-15T16:02:37Z) - DynamicViT: Efficient Vision Transformers with Dynamic Token
Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。
入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。
DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文 参考訳(メタデータ) (2021-06-03T17:57:41Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。