論文の概要: Stepping Forward on the Last Mile
- arxiv url: http://arxiv.org/abs/2411.04036v1
- Date: Wed, 06 Nov 2024 16:33:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:22:54.628330
- Title: Stepping Forward on the Last Mile
- Title(参考訳): 最後のマイルを前に進む
- Authors: Chen Feng, Shaojie Zhuo, Xiaopeng Zhang, Ramchalam Kinattinkara Ramakrishnan, Zhaocong Yuan, Andrew Zou Li,
- Abstract要約: 本稿では,バックプロパゲーションと比較してメモリフットプリントと精度のギャップを低減させるアルゴリズムの一連の拡張を提案する。
その結果、エッジデバイス上でのモデルカスタマイズの最後のマイルでは、固定点前方勾配によるトレーニングが実現可能で実践的なアプローチであることが示されている。
- 参考スコア(独自算出の注目度): 8.756033984943178
- License:
- Abstract: Continuously adapting pre-trained models to local data on resource constrained edge devices is the $\emph{last mile}$ for model deployment. However, as models increase in size and depth, backpropagation requires a large amount of memory, which becomes prohibitive for edge devices. In addition, most existing low power neural processing engines (e.g., NPUs, DSPs, MCUs, etc.) are designed as fixed-point inference accelerators, without training capabilities. Forward gradients, solely based on directional derivatives computed from two forward calls, have been recently used for model training, with substantial savings in computation and memory. However, the performance of quantized training with fixed-point forward gradients remains unclear. In this paper, we investigate the feasibility of on-device training using fixed-point forward gradients, by conducting comprehensive experiments across a variety of deep learning benchmark tasks in both vision and audio domains. We propose a series of algorithm enhancements that further reduce the memory footprint, and the accuracy gap compared to backpropagation. An empirical study on how training with forward gradients navigates in the loss landscape is further explored. Our results demonstrate that on the last mile of model customization on edge devices, training with fixed-point forward gradients is a feasible and practical approach.
- Abstract(参考訳): リソース制約のあるエッジデバイス上のローカルデータに対して、トレーニング済みのモデルを継続的に適用することは、モデルデプロイメントのための$\emph{last mile}$である。
しかし、モデルのサイズと深さが大きくなるにつれて、バックプロパゲーションには大量のメモリが必要となり、エッジデバイスでは禁止される。
さらに、既存のほとんどの低消費電力ニューラルネットワークエンジン(例えば、NPU、DSP、MCUなど)は、トレーニング機能なしで固定点推論アクセラレータとして設計されている。
フォワード勾配は、2つのフォワードコールから計算された方向微分のみに基づいており、最近はモデルトレーニングに使われており、計算とメモリの大幅な削減が図られている。
しかし, 定点前方勾配を用いた量子化学習の性能は未定である。
本稿では,固定点前方勾配を用いたデバイス上でのトレーニングの実現可能性について,視覚領域とオーディオ領域の両方において,様々なディープラーニングベンチマークタスクを網羅した総合的な実験を行うことにより検討する。
本稿では,バックプロパゲーションと比較してメモリフットプリントと精度のギャップを低減させるアルゴリズムの一連の拡張を提案する。
前方勾配のトレーニングが失われた風景の中でどのようにナビゲートするかに関する実証的研究をさらに進める。
その結果、エッジデバイス上でのモデルカスタマイズの最後のマイルでは、固定点前方勾配によるトレーニングが実現可能で実践的なアプローチであることが示されている。
関連論文リスト
- Pre-Pruning and Gradient-Dropping Improve Differentially Private Image
Classification [9.120531252536617]
本稿では,テキストプリプルーニングとテキストグラディエントドロップを用いた新しいトレーニングパラダイムを導入し,パラメータ空間の削減と拡張性の向上を図る。
トレーニングパラダイムでは,プレプニング率と勾配ドロップ率,プライバシ損失,分類精度の間に緊張関係が生じる。
論文 参考訳(メタデータ) (2023-06-19T14:35:28Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - On Training Implicit Models [75.20173180996501]
ファントム勾配(ファントム勾配)と呼ばれる暗黙モデルに対する新しい勾配推定法を提案し、正確な勾配の計算コストを抑える。
大規模タスクの実験では、これらの軽量ファントム勾配が暗黙の訓練モデルの後方通過を約1.7倍加速することを示した。
論文 参考訳(メタデータ) (2021-11-09T14:40:24Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Estimating Training Data Influence by Tracing Gradient Descent [21.94989239842377]
TracInは、モデルの予測に対するトレーニング例の影響を計算する。
TracInは実装が簡単で、必要なのは非依存の損失関数を動作させることだけだ。
論文 参考訳(メタデータ) (2020-02-19T22:40:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。