Fugu-MT 論文翻訳(概要): Resource-Efficient Transformer Architecture: Optimizing Memory and Execution Time for Real-Time Applications

論文の概要: Resource-Efficient Transformer Architecture: Optimizing Memory and Execution Time for Real-Time Applications

arxiv url: http://arxiv.org/abs/2501.00042v1
Date: Wed, 25 Dec 2024 14:41:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-12 21:42:02.340448
Title: Resource-Efficient Transformer Architecture: Optimizing Memory and Execution Time for Real-Time Applications
Title（参考訳）: リソース効率の良いトランスフォーマーアーキテクチャ:リアルタイムアプリケーションのためのメモリと実行時間を最適化する
Authors: Krisvarish V, Priyadarshini T, K P Abhishek Sri Saai, Vaidehi Vijayakumar,
Abstract要約: 本稿では,メモリ使用量と実行時間を大幅に削減するメモリ効率変換器モデルについて述べる。その結果、メモリ使用量の52%削減と実行時間の33%削減が達成され、最先端モデルよりも効率が向上した。
参考スコア（独自算出の注目度）: 0.1874930567916036
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper describes a memory-efficient transformer model designed to drive a reduction in memory usage and execution time by substantial orders of magnitude without impairing the model's performance near that of the original model. Recently, new architectures of transformers were presented, focused on parameter efficiency and computational optimization; however, such models usually require considerable resources in terms of hardware when deployed in real-world applications on edge devices. This approach addresses this concern by halving embedding size and applying targeted techniques such as parameter pruning and quantization to optimize the memory footprint with minimum sacrifices in terms of accuracy. Experimental results include a 52% reduction in memory usage and a 33% decrease in execution time, resulting in better efficiency than state-of-the-art models. This work compared our model with existing compelling architectures, such as MobileBERT and DistilBERT, and proved its feasibility in the domain of resource-friendly deep learning architectures, mainly for applications in real-time and in resource-constrained applications.
Abstract（参考訳）: 本稿では,メモリ使用量と実行時間を大幅に削減するメモリ効率変換器モデルについて述べる。近年、パラメータ効率と計算最適化に焦点をあてたトランスフォーマーの新しいアーキテクチャが提案されているが、エッジデバイス上の現実のアプリケーションにデプロイする際には、ハードウェアの観点からはかなりのリソースを必要とするのが普通である。このアプローチは、埋め込みサイズを半減させ、パラメータのプルーニングや量子化といったターゲット技術を適用して、メモリフットプリントを最小犠牲にして精度を向上することで、この問題に対処する。実験結果には、メモリ使用量の52%削減と実行時間の33%削減が含まれており、その結果、最先端モデルよりも効率が向上する。この研究は,MobileBERTやDistilBERTといった既存の魅力的なアーキテクチャと比較し,資源に優しいディープラーニングアーキテクチャの領域において,主にリアルタイムおよびリソースに制約のあるアプリケーションにおいて実現可能であることを証明した。

関連論文リスト

ZeroLM: Data-Free Transformer Architecture Search for Language Models [54.83882149157548]
現在の自動プロキシ発見アプローチは、検索時間の拡張、データの過度なオーバーフィットへの感受性、構造的な複雑さに悩まされている。本稿では,効率的な重み統計によるモデルキャパシティの定量化を目的とした,新しいゼロコストプロキシ手法を提案する。本評価は,FlexiBERT ベンチマークで Spearman's rho 0.76 と Kendall's tau 0.53 を達成し,このアプローチの優位性を示すものである。
論文参考訳（メタデータ） (2025-03-24T13:11:22Z)
SegResMamba: An Efficient Architecture for 3D Medical Image Segmentation [2.979183050755201]
本稿では,SegResMambaという医用画像の効率的な3次元分割モデルを提案する。我々のモデルは、他の最先端(SOTA)アーキテクチャと比較して、トレーニング中に半分未満のメモリを使用します。
論文参考訳（メタデータ） (2025-03-10T18:40:28Z)
Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文参考訳（メタデータ） (2025-02-01T04:18:28Z)
Numerical Pruning for Efficient Autoregressive Models [87.56342118369123]
本稿では,デコーダのみを用いた変圧器を用いた自己回帰モデルの圧縮に着目する。具体的には,ニュートン法とモジュールの数値スコアをそれぞれ計算する学習自由プルーニング法を提案する。提案手法の有効性を検証するため,理論的支援と広範囲な実験を行った。
論文参考訳（メタデータ） (2024-12-17T01:09:23Z)
FluidML: Fast and Memory Efficient Inference Optimization [3.7676096626244986]
我々は,汎用ランタイムメモリ管理および最適化フレームワークであるFluidMLを提案する。一般的な言語モデルでは、FluidMLはエンドツーエンドの推論遅延を最大25.38%削減できることを示す。また、FluidMLは最先端のアプローチと比較してピークメモリ使用量を最大41.47%削減できることを示す。
論文参考訳（メタデータ） (2024-11-14T07:16:23Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
A survey on efficient vision transformers: algorithms, techniques, and performance benchmarking [19.65897437342896]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションに取り組むために人気が高まり、広く使われている。本稿では,ビジョントランスフォーマーを効率的にするための戦略を数学的に定義し,最先端の方法論を記述・議論し,その性能を異なるアプリケーションシナリオで解析する。
論文参考訳（メタデータ） (2023-09-05T08:21:16Z)
TransCODE: Co-design of Transformers and Accelerators for Efficient Training and Inference [6.0093441900032465]
本稿では,アクセラレータの設計空間におけるトランスフォーマー推論とトレーニングをシミュレートするフレームワークを提案する。我々はこのシミュレータとTransCODEと呼ばれる共同設計手法を併用して最適性能のモデルを得る。得られた変圧器・加速器対は、最先端の対よりも0.3%高い精度を達成する。
論文参考訳（メタデータ） (2023-03-27T02:45:18Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
Efficient Fine-Tuning of BERT Models on the Edge [12.768368718187428]
BERTのようなモデルのためのメモリ効率のよいトレーニングシステムであるFreeze And Reconfigure (FAR)を提案する。 FARは、DistilBERTモデルとCoLAデータセットの微調整時間を30%削減し、メモリ操作に費やした時間を47%削減する。より広い範囲では、GLUEとSQuADデータセットのメトリックパフォーマンスの低下は平均で約1%である。
論文参考訳（メタデータ） (2022-05-03T14:51:53Z)
Data-Driven Offline Optimization For Architecting Hardware Accelerators [89.68870139177785]
PRIMEと呼ばれるハードウェアアクセラレータを設計するための,データ駆動型オフライン最適化手法を開発した。 PRIMEは、最先端のシミュレーション駆動方式の性能を約1.54倍と1.20倍に改善し、必要な総シミュレーション時間をそれぞれ93%と99%削減する。さらにPRIMEは、ゼロショット設定で見えないアプリケーションのための効果的なアクセラレーターを設計し、シミュレーションベースの手法を1.26倍に向上させた。
論文参考訳（メタデータ） (2021-10-20T17:06:09Z)
Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文参考訳（メタデータ） (2020-10-14T09:03:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。