論文の概要: MobileTL: On-device Transfer Learning with Inverted Residual Blocks
- arxiv url: http://arxiv.org/abs/2212.03246v1
- Date: Mon, 5 Dec 2022 23:07:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 15:13:55.465240
- Title: MobileTL: On-device Transfer Learning with Inverted Residual Blocks
- Title(参考訳): MobileTL: 逆残差ブロックを用いたオンデバイストランスファー学習
- Authors: Hung-Yueh Chiang, Natalia Frumkin, Feng Liang, Diana Marculescu
- Abstract要約: Inverted Residual Blocks (IRB) を用いたモデル転送学習手法であるMobileTLを提案する。
MobileTLは、下位パスのアクティベーションマップの保存を避けるために、内部正規化レイヤのシフトをトレーニングする。
提案手法は,MobileNetV2 と V3 IRB のメモリ使用量をそれぞれ 46% と 53% に削減する。
- 参考スコア(独自算出の注目度): 14.305834934988185
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transfer learning on edge is challenging due to on-device limited resources.
Existing work addresses this issue by training a subset of parameters or adding
model patches. Developed with inference in mind, Inverted Residual Blocks
(IRBs) split a convolutional layer into depthwise and pointwise convolutions,
leading to more stacking layers, e.g., convolution, normalization, and
activation layers. Though they are efficient for inference, IRBs require that
additional activation maps are stored in memory for training weights for
convolution layers and scales for normalization layers. As a result, their high
memory cost prohibits training IRBs on resource-limited edge devices, and
making them unsuitable in the context of transfer learning. To address this
issue, we present MobileTL, a memory and computationally efficient on-device
transfer learning method for models built with IRBs. MobileTL trains the shifts
for internal normalization layers to avoid storing activation maps for the
backward pass. Also, MobileTL approximates the backward computation of the
activation layer (e.g., Hard-Swish and ReLU6) as a signed function which
enables storing a binary mask instead of activation maps for the backward pass.
MobileTL fine-tunes a few top blocks (close to output) rather than propagating
the gradient through the whole network to reduce the computation cost. Our
method reduces memory usage by 46% and 53% for MobileNetV2 and V3 IRBs,
respectively. For MobileNetV3, we observe a 36% reduction in floating-point
operations (FLOPs) when fine-tuning 5 blocks, while only incurring a 0.6%
accuracy reduction on CIFAR10. Extensive experiments on multiple datasets
demonstrate that our method is Pareto-optimal (best accuracy under given
hardware constraints) compared to prior work in transfer learning for edge
devices.
- Abstract(参考訳): デバイス上の限られたリソースのため、エッジでの転送学習は難しい。
既存の作業はパラメータのサブセットをトレーニングしたり、モデルパッチを追加することでこの問題に対処する。
推論を念頭に置いて開発されたInverted Residual Blocks (IRBs) は、畳み込み層を奥行きと点方向の畳み込み層に分割し、畳み込み層、正規化層、アクティベーション層など、より多くの積み重ね層を生み出す。
推論には効率的だが、IRBは畳み込み層の重み付けと正規化層のスケールをトレーニングするために追加のアクティベーションマップをメモリに格納する必要がある。
その結果、メモリコストが高いため、リソース制限されたエッジデバイス上でのIRBのトレーニングが禁止され、転送学習の文脈では適さない。
この問題に対処するために、IRBで構築したモデルに対するメモリと計算効率のよいオンデバイストランスファー学習手法であるMobileTLを提案する。
MobileTLは、下位パスのアクティベーションマップの保存を避けるために、内部正規化レイヤのシフトをトレーニングする。
また、MobileTLは、活性化層の後方計算(例えば、Hard-SwishとReLU6)を符号付き関数として近似し、後方パスの活性化マップの代わりにバイナリマスクを格納する。
mobiletlは計算コストを削減するためにネットワーク全体の勾配を伝搬するのではなく、いくつかのトップブロック(出力に近い)を微調整する。
提案手法は,MobileNetV2とV3 IRBのメモリ使用量をそれぞれ46%,53%削減する。
MobileNetV3では、5ブロックの微調整時に浮動小数点演算(FLOP)が36%削減され、CIFAR10では0.6%の精度で精度が低下する。
複数のデータセットに対する大規模な実験により,本手法はエッジデバイスの転送学習における先行研究と比較して,Pareto-Optimal(ハードウェア制約下での最良の精度)であることが証明された。
関連論文リスト
- TBA: Faster Large Language Model Training Using SSD-Based Activation Offloading [13.283682311968752]
TBAは、PyTorch、Megatron、DeepSpeedといった一般的なディープラーニングフレームワークと互換性がある。
TBAはアクティベーションピークメモリ使用量の47%を効果的に削減できることを示す。
同時に、TBAは計算とI/Oを完全にオーバーラップし、無視できるパフォーマンスのオーバーヘッドを発生させる。
論文 参考訳(メタデータ) (2024-08-19T14:09:48Z) - Block Selective Reprogramming for On-device Training of Vision Transformers [12.118303034660531]
本稿では,事前学習したモデルのブロック全体のごく一部のみを微調整するブロック選択型再プログラミング(BSR)を提案する。
既存の代替手法と比較して、トレーニングメモリを最大1.4倍、計算コストを最大2倍に削減する。
論文 参考訳(メタデータ) (2024-03-25T08:41:01Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer
Learning [82.93130407930762]
大規模な事前訓練されたモデルのパラメータセット全体を更新するのはコストがかかる。
PETL技術は、トレーニング済みのバックボーンネットワーク内のパラメータの小さなサブセットを更新して、新しいタスクを実行できる。
本稿では,学習用メモリの必要量を大幅に削減するPETL技術であるLadder Side-Tuning (LST)を提案する。
論文 参考訳(メタデータ) (2022-06-13T23:51:56Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - Memory Efficient 3D U-Net with Reversible Mobile Inverted Bottlenecks
for Brain Tumor Segmentation [4.134876686331775]
従来のU-Netアーキテクチャとメモリ保存技術を組み合わせることで、Brain Tumor(BraTS)チャレンジにおけるモデルの複雑さを高めることを提案する。
当社の3D U-Netは、モバイル反転ボトルネックブロックのリバーシブルバージョンを使用して、トレーニング中にアクティベーションメモリを節約します。
最大3倍の画像ボリューム、25%の深さを持つモデル、または対応する非可逆ネットワークよりも最大2倍のチャンネル数を持つモデルをトレーニングできます。
論文 参考訳(メタデータ) (2021-04-19T21:23:55Z) - Layer Pruning via Fusible Residual Convolutional Block for Deep Neural
Networks [15.64167076052513]
レイヤプルーニングは、同じFLOPとパラメータの数でプルーニングされる場合、推論時間と実行時のメモリ使用量が少なくなる。
残差畳み込みブロック(ResConv)を用いた簡単な層切断法を提案する。
本手法は, 異なるデータセット上での最先端技術に対する圧縮と加速の優れた性能を実現する。
論文 参考訳(メタデータ) (2020-11-29T12:51:16Z) - TinyTL: Reduce Activations, Not Trainable Parameters for Efficient
On-Device Learning [78.80707950262214]
デバイス上での学習により、エッジデバイスはAIモデルを新しいデータに継続的に適応できる。
既存の作業は、トレーニング可能なパラメータの数を減らすことで、この問題を解決する。
メモリ効率の高いオンデバイス学習のためのTiny-Transfer-Learning(TinyTL)を提案する。
論文 参考訳(メタデータ) (2020-07-22T18:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。