論文の概要: TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge
- arxiv url: http://arxiv.org/abs/2603.09511v1
- Date: Tue, 10 Mar 2026 11:10:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.247196
- Title: TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge
- Title(参考訳): TrainDeeploy: 極端の小さな変圧器モデルのハードウェア高速化パラメータ効率の良い微調整
- Authors: Run Wang, Victor J. B. Jung, Philip Wiese, Francesco Conti, Alessio Burrello, Luca Benini,
- Abstract要約: TrainDeeployは、異種超低消費電力システムオンチップ(SoC)上での効率的な推論とオンデバイストレーニングを統合するフレームワークである。
我々は、CCT(Compact Convolutional Transformer)の最初のエンドツーエンドの微調整を実演し、1秒間に最大11個のトレーニング済み画像を達成した。
LoRAは動的メモリ使用量を23%削減し、トレーニング可能なパラメータや勾配を15倍削減し、フルバックプロパゲーションと比較してメモリ転送量を1.6倍削減する。
- 参考スコア(独自算出の注目度): 16.466947690033127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-device tuning of deep neural networks enables long-term adaptation at the edge while preserving data privacy. However, the high computational and memory demands of backpropagation pose significant challenges for ultra-low-power, memory-constrained extreme-edge devices. These challenges are further amplified for attention-based models due to their architectural complexity and computational scale. We present TrainDeeploy, a framework that unifies efficient inference and on-device training on heterogeneous ultra-low-power System-on-Chips (SoCs). TrainDeeploy provides the first complete on-device training pipeline for extreme-edge SoCs supporting both Convolutional Neural Networks (CNNs) and Transformer models, together with multiple training strategies such as selective layer-wise fine-tuning and Low-Rank Adaptation (LoRA). On a RISC-V-based heterogeneous SoC, we demonstrate the first end-to-end on-device fine-tuning of a Compact Convolutional Transformer (CCT), achieving up to 11 trained images per second. We show that LoRA reduces dynamic memory usage by 23%, decreases the number of trainable parameters and gradients by 15x, and reduces memory transfer volume by 1.6x compared to full backpropagation. TrainDeeploy achieves up to 4.6 FLOP/cycle on CCT (0.28M parameters, 71-126M FLOPs) and up to 13.4 FLOP/cycle on Deep-AE (0.27M parameters, 0.8M FLOPs), while expanding the scope of prior frameworks to support both CNN and Transformer models with parameter-efficient tuning on extreme-edge platforms.
- Abstract(参考訳): ディープニューラルネットワークのオンデバイスチューニングは、データのプライバシを保持しながら、エッジでの長期適応を可能にする。
しかし、バックプロパゲーションの高い計算とメモリ要求は、超低消費電力、メモリ制限された極端エッジデバイスに重大な課題をもたらす。
これらの課題は、アーキテクチャの複雑さと計算スケールのために、注意に基づくモデルのためにさらに増幅される。
ヘテロジニアスな超低消費電力システムオンチップ(SoC)上での効率的な推論とオンデバイストレーニングを統一するフレームワークであるTradeeployを提案する。
TrainDeeployは、CNN(Convolutional Neural Networks)とTransformer(Transformer)モデルをサポートする極端エッジSoCのための、最初のデバイス上でのトレーニングパイプラインを提供する。
RISC-VをベースとしたヘテロジニアスSoCでは,CCT(Compact Convolutional Transformer)のエンド・ツー・エンド・エンドの微細調整を行い,最大で毎秒11のトレーニング画像を実現する。
LoRAは動的メモリ使用量を23%削減し、トレーニング可能なパラメータや勾配を15倍削減し、フルバックプロパゲーションと比較してメモリ転送量を1.6倍削減する。
TrainDeeploy は CCT 上の 4.6 FLOP/cycle (0.28M パラメータ、71-126M FLOPs) と Deep-AE 上の 13.4 FLOP/cycle (0.27M パラメータ、0.8M FLOPs) を達成している。
関連論文リスト
- EdgeFlex-Transformer: Transformer Inference for Edge Devices [2.1130318406254074]
視覚変換器(ViT)の圧縮・高速化を目的とした軽量で効果的な多段最適化パイプラインを提案する。
本手法は,アクティベーションプロファイリング,メモリ対応プルーニング,選択的混合精度実行,アクティベーション対応量子化(AWQ)を組み合わせることで,コストのかかるリトレーニングやタスク固有の微調整を必要とせずに,モデルのメモリフットプリントを削減する。
CIFAR-10の実験では、完全に最適化されたモデルはピークメモリ使用量の76%削減と6倍のレイテンシを実現し、元のFP32ベースラインと比較して精度を維持または改善している。
論文 参考訳(メタデータ) (2025-12-17T21:45:12Z) - Model Parallelism With Subnetwork Data Parallelism [21.914077370806016]
大規模な大規模ニューラルネットワークの事前トレーニングは、アクセラレータに大量のメモリ要求を課し、しばしば高価な通信を必要とする。
本稿では,分散トレーニングフレームワークであるSubnetwork Data Parallelism(SDP)を紹介する。
本研究では,不偏勾配を維持するために下位段階のみに空間性を適用した後方マスキングと,前方パスのパラメータを除去してより高効率なゲインを実現する前方マスキングの2つの相補的なマスキング方式について検討する。
論文 参考訳(メタデータ) (2025-07-11T21:25:11Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Learning Robust and Lightweight Model through Separable Structured
Transformations [13.208781763887947]
本稿では、畳み込みニューラルネットワークのパラメータを低減するために、完全連結層を分離可能な構造変換を提案する。
ネットワークパラメータの90%削減に成功し、ロバストな精度損失は1.5%未満である。
我々は、ImageNet、SVHN、CIFAR-100、Vision Transformerなどのデータセットに対する提案手法を評価する。
論文 参考訳(メタデータ) (2021-12-27T07:25:26Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。