論文の概要: Block Selective Reprogramming for On-device Training of Vision Transformers
- arxiv url: http://arxiv.org/abs/2405.10951v1
- Date: Mon, 25 Mar 2024 08:41:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 08:39:42.501121
- Title: Block Selective Reprogramming for On-device Training of Vision Transformers
- Title(参考訳): ビジョントランスのオンデバイストレーニングのためのブロック選択型プログラミング
- Authors: Sreetama Sarkar, Souvik Kundu, Kai Zheng, Peter A. Beerel,
- Abstract要約: 本稿では,事前学習したモデルのブロック全体のごく一部のみを微調整するブロック選択型再プログラミング(BSR)を提案する。
既存の代替手法と比較して、トレーニングメモリを最大1.4倍、計算コストを最大2倍に削減する。
- 参考スコア(独自算出の注目度): 12.118303034660531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ubiquity of vision transformers (ViTs) for various edge applications, including personalized learning, has created the demand for on-device fine-tuning. However, training with the limited memory and computation power of edge devices remains a significant challenge. In particular, the memory required for training is much higher than that needed for inference, primarily due to the need to store activations across all layers in order to compute the gradients needed for weight updates. Previous works have explored reducing this memory requirement via frozen-weight training as well storing the activations in a compressed format. However, these methods are deemed inefficient due to their inability to provide training or inference speedup. In this paper, we first investigate the limitations of existing on-device training methods aimed at reducing memory and compute requirements. We then present block selective reprogramming (BSR) in which we fine-tune only a fraction of total blocks of a pre-trained model and selectively drop tokens based on self-attention scores of the frozen layers. To show the efficacy of BSR, we present extensive evaluations on ViT-B and DeiT-S with five different datasets. Compared to the existing alternatives, our approach simultaneously reduces training memory by up to 1.4x and compute cost by up to 2x while maintaining similar accuracy. We also showcase results for Mixture-of-Expert (MoE) models, demonstrating the effectiveness of our approach in multitask learning scenarios.
- Abstract(参考訳): パーソナライズされた学習を含む、さまざまなエッジアプリケーションのための視覚変換器(ViT)の普及は、デバイス上での微調整の需要を生み出している。
しかし、エッジデバイスのメモリと計算能力の制限によるトレーニングは依然として大きな課題である。
特に、トレーニングに必要なメモリは、推論に必要なメモリよりもはるかに高い。主な理由は、重み更新に必要な勾配を計算するために、すべてのレイヤにアクティベーションを保存する必要があるためである。
以前の研究では、フリーズウェイトトレーニングによるメモリ要件の削減と、アクティベーションを圧縮形式で保存することを検討した。
しかし、これらの手法はトレーニングや推論のスピードアップができないため、非効率であると考えられている。
本稿では,メモリと計算要求の低減を目的としたデバイス上での既存のトレーニング手法の限界について検討する。
次に,ブロック選択型再プログラミング(BSR)を提案する。ここでは,事前学習したモデルのブロックのごく一部だけを微調整し,凍結した層の自己保持スコアに基づいてトークンを選択的にドロップする。
BSRの有効性を示すために,5つの異なるデータセットを用いて,ViT-BとDeiT-Sについて広範な評価を行った。
既存の代替手法と比較して、トレーニングメモリを1.4倍まで削減し、計算コストを2倍まで削減すると同時に、同様の精度を維持した。
また,Mixture-of-Expert(MoE)モデルの結果を示し,マルチタスク学習シナリオにおけるアプローチの有効性を示す。
関連論文リスト
- Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - Fast Machine Unlearning Without Retraining Through Selective Synaptic
Dampening [51.34904967046097]
Selective Synaptic Dampening (SSD)は高速で、訓練データの長期保存を必要としない。
高速で性能が高く,トレーニングデータの長期保存を必要としない,新しい2段階のポストホック,リトレーニングフリーなマシンアンラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T11:30:45Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Adaptive Cross Batch Normalization for Metric Learning [75.91093210956116]
メトリクス学習はコンピュータビジョンの基本的な問題である。
蓄積した埋め込みが最新であることを保証することは、同様に重要であることを示す。
特に、蓄積した埋め込みと現在のトレーニングイテレーションにおける特徴埋め込みとの間の表現的ドリフトを回避する必要がある。
論文 参考訳(メタデータ) (2023-03-30T03:22:52Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - RCT: Resource Constrained Training for Edge AI [35.11160947555767]
既存のコンパクトモデルのトレーニング方法は、メモリとエネルギーの予算が豊富な強力なサーバ上で動くように設計されている。
これらの問題を解決するため、RCT(Resource Constrained Training)を提案します。
RCTは、トレーニング中、量子化されたモデルのみを調整し、トレーニング中のモデルパラメータのメモリ要求を低減します。
論文 参考訳(メタデータ) (2021-03-26T14:33:31Z) - Enabling Binary Neural Network Training on the Edge [7.32770338248516]
既存のバイナリニューラルネットワークトレーニング手法では、すべてのレイヤに対して高精度なアクティベーションを同時に保存する必要がある。
本稿では,メモリフットプリントの大幅な削減を図った,低コストなバイナリニューラルネットワークトレーニング戦略を提案する。
また、2ナライズされたResNet-18のin-scratch ImageNetトレーニングも実施し、3.78$times$メモリ削減を実現した。
論文 参考訳(メタデータ) (2021-02-08T15:06:41Z) - Improving compute efficacy frontiers with SliceOut [31.864949424541344]
SliceOut - 最終テスト精度に影響を与えることなく、ディープラーニングモデルを高速にトレーニングするためのドロップアウトインスパイアされたスキームだ。
テスト時に、SliceOutをオフにすると、テストの正確性を保持する一連のアーキテクチャに暗黙のアンサンブルが実行される。
これにより、大規模な計算ワークロード全体の処理が高速化され、結果として生じるエネルギー消費とCO2エミッションが大幅に削減される。
論文 参考訳(メタデータ) (2020-07-21T15:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。