論文の概要: TinyTL: Reduce Activations, Not Trainable Parameters for Efficient
On-Device Learning
- arxiv url: http://arxiv.org/abs/2007.11622v5
- Date: Sun, 6 Jun 2021 01:23:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 22:22:03.112827
- Title: TinyTL: Reduce Activations, Not Trainable Parameters for Efficient
On-Device Learning
- Title(参考訳): tinytl: 効率的なオンデバイス学習のためのトレーニングパラメータではなく、アクティベーションの削減
- Authors: Han Cai, Chuang Gan, Ligeng Zhu, Song Han
- Abstract要約: デバイス上での学習により、エッジデバイスはAIモデルを新しいデータに継続的に適応できる。
既存の作業は、トレーニング可能なパラメータの数を減らすことで、この問題を解決する。
メモリ効率の高いオンデバイス学習のためのTiny-Transfer-Learning(TinyTL)を提案する。
- 参考スコア(独自算出の注目度): 78.80707950262214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-device learning enables edge devices to continually adapt the AI models to
new data, which requires a small memory footprint to fit the tight memory
constraint of edge devices. Existing work solves this problem by reducing the
number of trainable parameters. However, this doesn't directly translate to
memory saving since the major bottleneck is the activations, not parameters. In
this work, we present Tiny-Transfer-Learning (TinyTL) for memory-efficient
on-device learning. TinyTL freezes the weights while only learns the bias
modules, thus no need to store the intermediate activations. To maintain the
adaptation capacity, we introduce a new memory-efficient bias module, the lite
residual module, to refine the feature extractor by learning small residual
feature maps adding only 3.8% memory overhead. Extensive experiments show that
TinyTL significantly saves the memory (up to 6.5x) with little accuracy loss
compared to fine-tuning the full network. Compared to fine-tuning the last
layer, TinyTL provides significant accuracy improvements (up to 34.1%) with
little memory overhead. Furthermore, combined with feature extractor
adaptation, TinyTL provides 7.3-12.9x memory saving without sacrificing
accuracy compared to fine-tuning the full Inception-V3.
- Abstract(参考訳): デバイス上での学習により、エッジデバイスは、エッジデバイスの厳しいメモリ制約に適合するために、小さなメモリフットプリントを必要とする、AIモデルを新しいデータに継続的に適用することができる。
既存の作業は、トレーニング可能なパラメータの数を減らすことで、この問題を解決する。
しかし、大きなボトルネックはアクティベーションであり、パラメータではないため、これはメモリセーブに直接変換しない。
本稿では,メモリ効率のよいオンデバイス学習のためのtinytl(tinytl)を提案する。
TinyTLは重みを凍結し、バイアスモジュールのみを学習するので、中間活性化を格納する必要はない。
適応能力を維持するため,メモリオーバーヘッドを3.8%加える小さな残像マップを学習して特徴抽出器を改良する,メモリ効率のよい新しい残像モジュールであるライト残像モジュールを導入する。
大規模な実験により、TinyTLは全ネットワークを微調整するよりも、メモリ(最大6.5倍)を大幅に節約できることがわかった。
最後のレイヤの微調整と比較すると、TinyTLはメモリオーバーヘッドが少なく、大幅な精度の改善(最大34.1%)を提供する。
さらに、機能抽出器の適応と組み合わせて、tinytlは7.3-12.9倍のメモリセーブを提供する。
関連論文リスト
- Quantized Side Tuning: Fast and Memory-Efficient Tuning of Quantized
Large Language Models [37.516453975389624]
大規模言語モデル(LLM)の微調整は、様々な下流タスクに実験的に有効である。
LLMを微調整するための既存のアプローチは、パラメータ効率の良い微調整に焦点を当てるか、トレーニングフェーズ中にメモリフットプリントを減らそうとする。
本稿では,2段プロセスを介して動作することで,LLMのメモリ効率と高速な微調整を可能にする量子化サイドチューニング(QST)を提案する。
論文 参考訳(メタデータ) (2024-01-13T21:00:21Z) - DTL: Disentangled Transfer Learning for Visual Recognition [21.549234013998255]
軽量なコンパクトサイドネットワーク(CSN)を用いて、トレーニング可能なパラメータをバックボーンから切り離すDTL(Disentangled Transfer Learning)を導入する。
提案手法は,大量のGPUメモリ使用量とトレーニング可能なパラメータを削減できるだけでなく,既存のPETL法よりも高い精度で性能を向上する。
論文 参考訳(メタデータ) (2023-12-13T02:51:26Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of
Language Model [92.55145016562867]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - MobileTL: On-device Transfer Learning with Inverted Residual Blocks [14.305834934988185]
Inverted Residual Blocks (IRB) を用いたモデル転送学習手法であるMobileTLを提案する。
MobileTLは、下位パスのアクティベーションマップの保存を避けるために、内部正規化レイヤのシフトをトレーニングする。
提案手法は,MobileNetV2 と V3 IRB のメモリ使用量をそれぞれ 46% と 53% に削減する。
論文 参考訳(メタデータ) (2022-12-05T23:07:55Z) - On-Device Training Under 256KB Memory [65.76525493087847]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは、小さなIoTデバイス上での視覚認識のデバイス上での転送学習のための、最初の実用的なソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer
Learning [82.93130407930762]
大規模な事前訓練されたモデルのパラメータセット全体を更新するのはコストがかかる。
PETL技術は、トレーニング済みのバックボーンネットワーク内のパラメータの小さなサブセットを更新して、新しいタスクを実行できる。
本稿では,学習用メモリの必要量を大幅に削減するPETL技術であるLadder Side-Tuning (LST)を提案する。
論文 参考訳(メタデータ) (2022-06-13T23:51:56Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - A TinyML Platform for On-Device Continual Learning with Quantized Latent
Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。
10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。
これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-20T11:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。