Fugu-MT 論文翻訳(概要): TinyTL: Reduce Activations, Not Trainable Parameters for Efficient On-Device Learning

論文の概要: TinyTL: Reduce Activations, Not Trainable Parameters for Efficient On-Device Learning

arxiv url: http://arxiv.org/abs/2007.11622v5
Date: Sun, 6 Jun 2021 01:23:16 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-07 22:22:03.112827
Title: TinyTL: Reduce Activations, Not Trainable Parameters for Efficient On-Device Learning
Title（参考訳）: tinytl: 効率的なオンデバイス学習のためのトレーニングパラメータではなく、アクティベーションの削減
Authors: Han Cai, Chuang Gan, Ligeng Zhu, Song Han
Abstract要約: デバイス上での学習により、エッジデバイスはAIモデルを新しいデータに継続的に適応できる。既存の作業は、トレーニング可能なパラメータの数を減らすことで、この問題を解決する。メモリ効率の高いオンデバイス学習のためのTiny-Transfer-Learning(TinyTL)を提案する。
参考スコア（独自算出の注目度）: 78.80707950262214
License: http://creativecommons.org/licenses/by/4.0/
Abstract: On-device learning enables edge devices to continually adapt the AI models to new data, which requires a small memory footprint to fit the tight memory constraint of edge devices. Existing work solves this problem by reducing the number of trainable parameters. However, this doesn't directly translate to memory saving since the major bottleneck is the activations, not parameters. In this work, we present Tiny-Transfer-Learning (TinyTL) for memory-efficient on-device learning. TinyTL freezes the weights while only learns the bias modules, thus no need to store the intermediate activations. To maintain the adaptation capacity, we introduce a new memory-efficient bias module, the lite residual module, to refine the feature extractor by learning small residual feature maps adding only 3.8% memory overhead. Extensive experiments show that TinyTL significantly saves the memory (up to 6.5x) with little accuracy loss compared to fine-tuning the full network. Compared to fine-tuning the last layer, TinyTL provides significant accuracy improvements (up to 34.1%) with little memory overhead. Furthermore, combined with feature extractor adaptation, TinyTL provides 7.3-12.9x memory saving without sacrificing accuracy compared to fine-tuning the full Inception-V3.
Abstract（参考訳）: デバイス上での学習により、エッジデバイスは、エッジデバイスの厳しいメモリ制約に適合するために、小さなメモリフットプリントを必要とする、AIモデルを新しいデータに継続的に適用することができる。既存の作業は、トレーニング可能なパラメータの数を減らすことで、この問題を解決する。しかし、大きなボトルネックはアクティベーションであり、パラメータではないため、これはメモリセーブに直接変換しない。本稿では,メモリ効率のよいオンデバイス学習のためのtinytl(tinytl)を提案する。 TinyTLは重みを凍結し、バイアスモジュールのみを学習するので、中間活性化を格納する必要はない。適応能力を維持するため,メモリオーバーヘッドを3.8%加える小さな残像マップを学習して特徴抽出器を改良する,メモリ効率のよい新しい残像モジュールであるライト残像モジュールを導入する。大規模な実験により、TinyTLは全ネットワークを微調整するよりも、メモリ(最大6.5倍)を大幅に節約できることがわかった。最後のレイヤの微調整と比較すると、TinyTLはメモリオーバーヘッドが少なく、大幅な精度の改善(最大34.1%)を提供する。さらに、機能抽出器の適応と組み合わせて、tinytlは7.3-12.9倍のメモリセーブを提供する。

関連論文リスト

Leveraging Lightweight Generators for Memory Efficient Continual Learning [0.01874930567916036]
破滅的な忘れは、すべてのデータを以前のタスクからメモリに保持することで、簡単に軽減できる。本稿では,メモリベースの連続学習アルゴリズムに必要なメモリを削減することを目的とする。
論文参考訳（メタデータ） (2025-06-24T14:59:52Z)
S2A: A Unified Framework for Parameter and Memory Efficient Transfer Learning [8.602744958104969]
本研究では,微調整時の活性化のメモリフットプリントを低減するため,新しいPETLフレームワークであるStructure to Activation (S2A)を提案する。具体的には,1)パラメトリックモデル構造におけるアクティベーションモジュールの設計(バイアス,プロンプト,サイドモジュール)からなり,パラメータやアクティベーションメモリの大幅な削減を実現している。提案手法は既存のPETL技術よりも優れており,GPUメモリフットプリントの4倍の削減を実現しているだけでなく,可変パラメータの少ない精度で競合性能を示す。
論文参考訳（メタデータ） (2025-03-11T08:10:03Z)
Reducing Fine-Tuning Memory Overhead by Approximate and Memory-Sharing Backpropagation [29.139579820699495]
この研究は、活性化関数と層正規化の観点から微調整におけるメモリオーバーヘッドを低減することを目的としている。提案手法をバックプロパゲーショントレーニングに適用し,GELUおよびSiLU活性化関数のメモリ効率の代替を導出する。さらに、メモリ共有バックプロパゲーション戦略を導入し、アクティベーションメモリを2つの隣接層で共有できるようにする。
論文参考訳（メタデータ） (2024-06-24T03:09:15Z)
DTL: Disentangled Transfer Learning for Visual Recognition [21.549234013998255]
軽量なコンパクトサイドネットワーク(CSN)を用いて、トレーニング可能なパラメータをバックボーンから切り離すDTL(Disentangled Transfer Learning)を導入する。提案手法は,大量のGPUメモリ使用量とトレーニング可能なパラメータを削減できるだけでなく,既存のPETL法よりも高い精度で性能を向上する。
論文参考訳（メタデータ） (2023-12-13T02:51:26Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
MobileTL: On-device Transfer Learning with Inverted Residual Blocks [14.305834934988185]
Inverted Residual Blocks (IRB) を用いたモデル転送学習手法であるMobileTLを提案する。 MobileTLは、下位パスのアクティベーションマップの保存を避けるために、内部正規化レイヤのシフトをトレーニングする。提案手法は,MobileNetV2 と V3 IRB のメモリ使用量をそれぞれ 46% と 53% に削減する。
論文参考訳（メタデータ） (2022-12-05T23:07:55Z)
On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文参考訳（メタデータ） (2022-06-30T17:59:08Z)
LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer Learning [82.93130407930762]
大規模な事前訓練されたモデルのパラメータセット全体を更新するのはコストがかかる。 PETL技術は、トレーニング済みのバックボーンネットワーク内のパラメータの小さなサブセットを更新して、新しいタスクを実行できる。本稿では,学習用メモリの必要量を大幅に削減するPETL技術であるLadder Side-Tuning (LST)を提案する。
論文参考訳（メタデータ） (2022-06-13T23:51:56Z)
A TinyML Platform for On-Device Continual Learning with Quantized Latent Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。 10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文参考訳（メタデータ） (2021-10-20T11:01:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。