論文の概要: TinyTL: Reduce Activations, Not Trainable Parameters for Efficient
On-Device Learning
- arxiv url: http://arxiv.org/abs/2007.11622v5
- Date: Sun, 6 Jun 2021 01:23:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 22:22:03.112827
- Title: TinyTL: Reduce Activations, Not Trainable Parameters for Efficient
On-Device Learning
- Title(参考訳): tinytl: 効率的なオンデバイス学習のためのトレーニングパラメータではなく、アクティベーションの削減
- Authors: Han Cai, Chuang Gan, Ligeng Zhu, Song Han
- Abstract要約: デバイス上での学習により、エッジデバイスはAIモデルを新しいデータに継続的に適応できる。
既存の作業は、トレーニング可能なパラメータの数を減らすことで、この問題を解決する。
メモリ効率の高いオンデバイス学習のためのTiny-Transfer-Learning(TinyTL)を提案する。
- 参考スコア(独自算出の注目度): 78.80707950262214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-device learning enables edge devices to continually adapt the AI models to
new data, which requires a small memory footprint to fit the tight memory
constraint of edge devices. Existing work solves this problem by reducing the
number of trainable parameters. However, this doesn't directly translate to
memory saving since the major bottleneck is the activations, not parameters. In
this work, we present Tiny-Transfer-Learning (TinyTL) for memory-efficient
on-device learning. TinyTL freezes the weights while only learns the bias
modules, thus no need to store the intermediate activations. To maintain the
adaptation capacity, we introduce a new memory-efficient bias module, the lite
residual module, to refine the feature extractor by learning small residual
feature maps adding only 3.8% memory overhead. Extensive experiments show that
TinyTL significantly saves the memory (up to 6.5x) with little accuracy loss
compared to fine-tuning the full network. Compared to fine-tuning the last
layer, TinyTL provides significant accuracy improvements (up to 34.1%) with
little memory overhead. Furthermore, combined with feature extractor
adaptation, TinyTL provides 7.3-12.9x memory saving without sacrificing
accuracy compared to fine-tuning the full Inception-V3.
- Abstract(参考訳): デバイス上での学習により、エッジデバイスは、エッジデバイスの厳しいメモリ制約に適合するために、小さなメモリフットプリントを必要とする、AIモデルを新しいデータに継続的に適用することができる。
既存の作業は、トレーニング可能なパラメータの数を減らすことで、この問題を解決する。
しかし、大きなボトルネックはアクティベーションであり、パラメータではないため、これはメモリセーブに直接変換しない。
本稿では,メモリ効率のよいオンデバイス学習のためのtinytl(tinytl)を提案する。
TinyTLは重みを凍結し、バイアスモジュールのみを学習するので、中間活性化を格納する必要はない。
適応能力を維持するため,メモリオーバーヘッドを3.8%加える小さな残像マップを学習して特徴抽出器を改良する,メモリ効率のよい新しい残像モジュールであるライト残像モジュールを導入する。
大規模な実験により、TinyTLは全ネットワークを微調整するよりも、メモリ(最大6.5倍)を大幅に節約できることがわかった。
最後のレイヤの微調整と比較すると、TinyTLはメモリオーバーヘッドが少なく、大幅な精度の改善(最大34.1%)を提供する。
さらに、機能抽出器の適応と組み合わせて、tinytlは7.3-12.9倍のメモリセーブを提供する。
関連論文リスト
- Reducing Fine-Tuning Memory Overhead by Approximate and Memory-Sharing Backpropagation [29.139579820699495]
この研究は、活性化関数と層正規化の観点から微調整におけるメモリオーバーヘッドを低減することを目的としている。
提案手法をバックプロパゲーショントレーニングに適用し,GELUおよびSiLU活性化関数のメモリ効率の代替を導出する。
さらに、メモリ共有バックプロパゲーション戦略を導入し、アクティベーションメモリを2つの隣接層で共有できるようにする。
論文 参考訳(メタデータ) (2024-06-24T03:09:15Z) - DTL: Disentangled Transfer Learning for Visual Recognition [21.549234013998255]
軽量なコンパクトサイドネットワーク(CSN)を用いて、トレーニング可能なパラメータをバックボーンから切り離すDTL(Disentangled Transfer Learning)を導入する。
提案手法は,大量のGPUメモリ使用量とトレーニング可能なパラメータを削減できるだけでなく,既存のPETL法よりも高い精度で性能を向上する。
論文 参考訳(メタデータ) (2023-12-13T02:51:26Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - MobileTL: On-device Transfer Learning with Inverted Residual Blocks [14.305834934988185]
Inverted Residual Blocks (IRB) を用いたモデル転送学習手法であるMobileTLを提案する。
MobileTLは、下位パスのアクティベーションマップの保存を避けるために、内部正規化レイヤのシフトをトレーニングする。
提案手法は,MobileNetV2 と V3 IRB のメモリ使用量をそれぞれ 46% と 53% に削減する。
論文 参考訳(メタデータ) (2022-12-05T23:07:55Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer
Learning [82.93130407930762]
大規模な事前訓練されたモデルのパラメータセット全体を更新するのはコストがかかる。
PETL技術は、トレーニング済みのバックボーンネットワーク内のパラメータの小さなサブセットを更新して、新しいタスクを実行できる。
本稿では,学習用メモリの必要量を大幅に削減するPETL技術であるLadder Side-Tuning (LST)を提案する。
論文 参考訳(メタデータ) (2022-06-13T23:51:56Z) - A TinyML Platform for On-Device Continual Learning with Quantized Latent
Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。
10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。
これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-20T11:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。