論文の概要: Resource-Efficient Transformer Architecture: Optimizing Memory and Execution Time for Real-Time Applications
- arxiv url: http://arxiv.org/abs/2501.00042v1
- Date: Wed, 25 Dec 2024 14:41:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 21:12:46.425704
- Title: Resource-Efficient Transformer Architecture: Optimizing Memory and Execution Time for Real-Time Applications
- Title(参考訳): リソース効率の良いトランスフォーマーアーキテクチャ:リアルタイムアプリケーションのためのメモリと実行時間を最適化する
- Authors: Krisvarish V, Priyadarshini T, K P Abhishek Sri Saai, Vaidehi Vijayakumar,
- Abstract要約: 本稿では,メモリ使用量と実行時間を大幅に削減するメモリ効率変換器モデルについて述べる。
その結果、メモリ使用量の52%削減と実行時間の33%削減が達成され、最先端モデルよりも効率が向上した。
- 参考スコア(独自算出の注目度): 0.1874930567916036
- License:
- Abstract: This paper describes a memory-efficient transformer model designed to drive a reduction in memory usage and execution time by substantial orders of magnitude without impairing the model's performance near that of the original model. Recently, new architectures of transformers were presented, focused on parameter efficiency and computational optimization; however, such models usually require considerable resources in terms of hardware when deployed in real-world applications on edge devices. This approach addresses this concern by halving embedding size and applying targeted techniques such as parameter pruning and quantization to optimize the memory footprint with minimum sacrifices in terms of accuracy. Experimental results include a 52% reduction in memory usage and a 33% decrease in execution time, resulting in better efficiency than state-of-the-art models. This work compared our model with existing compelling architectures, such as MobileBERT and DistilBERT, and proved its feasibility in the domain of resource-friendly deep learning architectures, mainly for applications in real-time and in resource-constrained applications.
- Abstract(参考訳): 本稿では,メモリ使用量と実行時間を大幅に削減するメモリ効率変換器モデルについて述べる。
近年、パラメータ効率と計算最適化に焦点をあてたトランスフォーマーの新しいアーキテクチャが提案されているが、エッジデバイス上の現実のアプリケーションにデプロイする際には、ハードウェアの観点からはかなりのリソースを必要とするのが普通である。
このアプローチは、埋め込みサイズを半減させ、パラメータのプルーニングや量子化といったターゲット技術を適用して、メモリフットプリントを最小犠牲にして精度を向上することで、この問題に対処する。
実験結果には、メモリ使用量の52%削減と実行時間の33%削減が含まれており、その結果、最先端モデルよりも効率が向上する。
この研究は,MobileBERTやDistilBERTといった既存の魅力的なアーキテクチャと比較し,資源に優しいディープラーニングアーキテクチャの領域において,主にリアルタイムおよびリソースに制約のあるアプリケーションにおいて実現可能であることを証明した。
関連論文リスト
- Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。
微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。
これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文 参考訳(メタデータ) (2025-02-01T04:18:28Z) - Numerical Pruning for Efficient Autoregressive Models [87.56342118369123]
本稿では,デコーダのみを用いた変圧器を用いた自己回帰モデルの圧縮に着目する。
具体的には,ニュートン法とモジュールの数値スコアをそれぞれ計算する学習自由プルーニング法を提案する。
提案手法の有効性を検証するため,理論的支援と広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-12-17T01:09:23Z) - FluidML: Fast and Memory Efficient Inference Optimization [3.7676096626244986]
我々は,汎用ランタイムメモリ管理および最適化フレームワークであるFluidMLを提案する。
一般的な言語モデルでは、FluidMLはエンドツーエンドの推論遅延を最大25.38%削減できることを示す。
また、FluidMLは最先端のアプローチと比較してピークメモリ使用量を最大41.47%削減できることを示す。
論文 参考訳(メタデータ) (2024-11-14T07:16:23Z) - A survey on efficient vision transformers: algorithms, techniques, and
performance benchmarking [19.65897437342896]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションに取り組むために人気が高まり、広く使われている。
本稿では,ビジョントランスフォーマーを効率的にするための戦略を数学的に定義し,最先端の方法論を記述・議論し,その性能を異なるアプリケーションシナリオで解析する。
論文 参考訳(メタデータ) (2023-09-05T08:21:16Z) - FuzzyFlow: Leveraging Dataflow To Find and Squash Program Optimization
Bugs [92.47146416628965]
FuzzyFlowはプログラム最適化をテストするために設計されたフォールトローカライゼーションとテストケース抽出フレームワークである。
我々は、データフロープログラム表現を活用して、完全に再現可能なシステム状態と最適化のエリア・オブ・エフェクトをキャプチャする。
テスト時間を削減するため,テスト入力を最小限に抑えるアルゴリズムを設計し,再計算のためのメモリ交換を行う。
論文 参考訳(メタデータ) (2023-06-28T13:00:17Z) - TransCODE: Co-design of Transformers and Accelerators for Efficient
Training and Inference [6.0093441900032465]
本稿では,アクセラレータの設計空間におけるトランスフォーマー推論とトレーニングをシミュレートするフレームワークを提案する。
我々はこのシミュレータとTransCODEと呼ばれる共同設計手法を併用して最適性能のモデルを得る。
得られた変圧器・加速器対は、最先端の対よりも0.3%高い精度を達成する。
論文 参考訳(メタデータ) (2023-03-27T02:45:18Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Efficient Fine-Tuning of BERT Models on the Edge [12.768368718187428]
BERTのようなモデルのためのメモリ効率のよいトレーニングシステムであるFreeze And Reconfigure (FAR)を提案する。
FARは、DistilBERTモデルとCoLAデータセットの微調整時間を30%削減し、メモリ操作に費やした時間を47%削減する。
より広い範囲では、GLUEとSQuADデータセットのメトリックパフォーマンスの低下は平均で約1%である。
論文 参考訳(メタデータ) (2022-05-03T14:51:53Z) - Data-Driven Offline Optimization For Architecting Hardware Accelerators [89.68870139177785]
PRIMEと呼ばれるハードウェアアクセラレータを設計するための,データ駆動型オフライン最適化手法を開発した。
PRIMEは、最先端のシミュレーション駆動方式の性能を約1.54倍と1.20倍に改善し、必要な総シミュレーション時間をそれぞれ93%と99%削減する。
さらにPRIMEは、ゼロショット設定で見えないアプリケーションのための効果的なアクセラレーターを設計し、シミュレーションベースの手法を1.26倍に向上させた。
論文 参考訳(メタデータ) (2021-10-20T17:06:09Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。