論文の概要: DAPA: Distribution Aware Piecewise Activation Functions for On-Device Transformer Inference and Training
- arxiv url: http://arxiv.org/abs/2603.19338v1
- Date: Thu, 19 Mar 2026 07:46:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.811213
- Title: DAPA: Distribution Aware Piecewise Activation Functions for On-Device Transformer Inference and Training
- Title(参考訳): DAPA:オンデバイストランスフォーマー推論とトレーニングのための配電機能
- Authors: Maoyang Xiang, Bo Wang,
- Abstract要約: 非線形アクティベーション関数は、デバイス上での推論とトレーニングにおいて重要な役割を果たす。ハードウェアリソースを消費するだけでなく、システムの性能とエネルギー効率に大きな影響を与える。
本研究では,事前アクティベーションデータの分散を利用して,Transformer アーキテクチャの識別可能かつハードウェアフレンドリなアクティベーション機能である Distribution-Aware Piecewise Activation (DAPA) を提案する。
我々のHLS実装は、DAPAがGELU計算を16$times$で高速化し、DSP使用率を16$times$で削減し、視覚変換器とGPT-2モデルで同等またはより良い性能を維持しながら、DSP使用率を16$times$で低下させることを示した。
- 参考スコア(独自算出の注目度): 2.0354087125207108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Non-linear activation functions play a pivotal role in on-device inference and training, as they not only consume substantial hardware resources but also impose a significant impact on system performance and energy efficiency. In this work, we propose Distribution-Aware Piecewise Activation (DAPA), a differentiable and hardware-friendly activation function for Transformer architectures by exploiting the distribution of pre-activation data. DAPA employs a non-uniform piecewise approximation that allocates finer segments to high-probability regions of the distribution, improving generalizability over prior piecewise linear methods. The resulting approximation is further quantized using Distribution-Weighted Mean Square Error to reduce latency and resource utilization for hardware deployment. Our HLS implementation demonstrates that DAPA speeds up GELU computation by 16$\times$ and decreases DSP utilization by 16$\times$ while maintaining comparable or better performance across vision Transformers and GPT-2 models.
- Abstract(参考訳): 非線形アクティベーション関数は、デバイス上での推論とトレーニングにおいて重要な役割を果たす。ハードウェアリソースを消費するだけでなく、システムの性能とエネルギー効率に大きな影響を与える。
本研究では,事前アクティベーションデータの分散を利用して,Transformer アーキテクチャの識別可能かつハードウェアフレンドリなアクティベーション機能である Distribution-Aware Piecewise Activation (DAPA) を提案する。
DAPAは、分布の高確率領域に細かなセグメントを割り当てる不均一なピースワイド近似を採用し、以前のピースワイド線形法よりも一般化性を向上させる。
結果として生じる近似は、ハードウェアデプロイメントのレイテンシとリソース利用を低減するために、Distributed-Weighted Mean Square Errorを使用してさらに定量化される。
我々のHLS実装は、DAPAがGELU計算を16$\times$で高速化し、DSP使用率を16$\times$で削減し、視覚変換器やGPT-2モデルに匹敵する性能を維持しながら、DSP使用率を16$\times$で低下させることを示した。
関連論文リスト
- Dual Path Attribution: Efficient Attribution for SwiGLU-Transformers through Layer-Wise Target Propagation [5.186807923082922]
本稿では,凍結変圧器上の情報の流れを,一方の前方および一方の後方通過で忠実に追跡する新しいフレームワークであるDual Path Attribution(DPA)を紹介する。
DPAは、既存のベースラインと比較して、最先端の忠実さと前例のない効率を達成する。
論文 参考訳(メタデータ) (2026-03-20T08:28:24Z) - LAPA: Log-Domain Prediction-Driven Dynamic Sparsity Accelerator for Transformer Model [14.53308613746613]
本稿では,LAPAという対数領域の注意予測アルゴリズム-アーキテクチャ共設計を提案する。
その結果, LAPAのエネルギー効率は, Spatten, Sanger, FACTの3.52倍, 3.24倍, 2.79倍に向上した。
論文 参考訳(メタデータ) (2025-11-26T07:24:48Z) - EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving [64.15371139980802]
大規模言語モデル(LLM)は、最近、自動定理証明(ATP)の分野を進歩させた。
ATPモデルに対する異なるテスト時間スケーリング戦略は、推論にかなりの計算オーバーヘッドをもたらすことを示す。
本稿では,統一EconRLパイプラインに統合可能な2つの補完手法を提案する。
論文 参考訳(メタデータ) (2025-09-16T03:00:13Z) - On-Device Diffusion Transformer Policy for Efficient Robot Manipulation [26.559546714450324]
Diffusion Policiesには、模倣学習によるロボット操作タスクが大幅に進歩している。
リソース制約のあるモバイルプラットフォームへの彼らの適用は、計算の非効率性と広範なメモリフットプリントのため、依然として困難である。
我々は,モバイルデバイス上でリアルタイムにデプロイするためのDiffusion Policiesを高速化する新しいフレームワークであるLightDPを提案する。
論文 参考訳(メタデータ) (2025-08-01T15:14:39Z) - Intra-DP: A High Performance Collaborative Inference System for Mobile Edge Computing [67.98609858326951]
Intra-DPはモバイルデバイス上でのディープニューラルネットワーク(DNN)に最適化された高性能な協調推論システムである。
推論毎のレイテンシを最大50%削減し、最先端のベースラインと比較してエネルギー消費量を最大75%削減する。
評価の結果,DP内の遅延は,最先端のベースラインと比較して最大50%,エネルギー消費は最大75%減少することがわかった。
論文 参考訳(メタデータ) (2025-07-08T09:50:57Z) - The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks [56.37880529653111]
大規模計算モデル(LAIM)サービスの需要は、従来のクラウドベースの推論から、低レイテンシでプライバシ保護のアプリケーションのためのエッジベースの推論へのパラダイムシフトを推進している。
本稿では,事前学習したLAIMをデバイス上のサブモデルとサーバ上のサブモデルに分割して配置するLAIM推論方式について検討する。
論文 参考訳(メタデータ) (2025-05-14T08:18:55Z) - R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。
拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。
以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文 参考訳(メタデータ) (2025-03-02T13:43:53Z) - Exploiting Activation Sparsity with Dense to Dynamic-k Mixture-of-Experts Conversion [4.716845031095804]
トランスフォーマーモデルは、高い計算要求のため、実用的な制限に直面する可能性がある。
このようなモデルは、ネットワークの一部を等価なMixture-of-Experts (MoE)層に変換することで、推論コストを削減するために利用することができる。
本研究では,基本モデルの活性化間隔を適切に正規化することにより,変換効率を大幅に向上できることを実証する。
論文 参考訳(メタデータ) (2023-10-06T16:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。