論文の概要: T-REX: A 68-567 μs/token, 0.41-3.95 μJ/token Transformer Accelerator with Reduced External Memory Access and Enhanced Hardware Utilization in 16nm FinFET
- arxiv url: http://arxiv.org/abs/2503.00322v1
- Date: Sat, 01 Mar 2025 03:18:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:16:10.035939
- Title: T-REX: A 68-567 μs/token, 0.41-3.95 μJ/token Transformer Accelerator with Reduced External Memory Access and Enhanced Hardware Utilization in 16nm FinFET
- Title(参考訳): T-REX: 68-567 μs/token, 0.41-3.95 μJ/token変換器
- Authors: Seunghyun Moon, Mao Li, Gregory Chen, Phil Knag, Ram Krishnamurthy, Mingoo Seok,
- Abstract要約: 本研究では、トランスモデル推論時の外部メモリアクセスを低減するために、新しいトレーニングとポストトレーニング圧縮スキームを導入する。
動的と呼ばれる新しい制御フロー機構と新しいバッファアーキテクチャにより、ハードウェア使用率を改善しながら、外部メモリアクセスをさらに削減できる。
- 参考スコア(独自算出の注目度): 2.685687027182498
- License:
- Abstract: This work introduces novel training and post-training compression schemes to reduce external memory access during transformer model inference. Additionally, a new control flow mechanism, called dynamic batching, and a novel buffer architecture, termed a two-direction accessible register file, further reduce external memory access while improving hardware utilization.
- Abstract(参考訳): 本研究では、トランスモデル推論時の外部メモリアクセスを低減するために、新しいトレーニングとポストトレーニング圧縮スキームを導入する。
さらに、動的バッチと呼ばれる新しい制御フロー機構と、新しいバッファアーキテクチャは、2方向アクセス可能なレジスタファイルと呼ばれ、ハードウェア利用を改善しながら外部メモリアクセスをさらに削減した。
関連論文リスト
- LM2: Large Memory Models [11.320069795732058]
本稿では,補助メモリモジュールで拡張されたデコーダのみのトランスフォーマーアーキテクチャであるLarge Memory Model (LM2)を紹介する。
BABILongベンチマークの実験結果によると、LM2モデルはメモリ拡張RTTモデルとベースラインのLlama-3.2モデルの両方を平均86.3%上回っている。
論文 参考訳(メタデータ) (2025-02-09T22:11:42Z) - Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
本研究では,動的拡散変換器 (DyDiT) を提案する。
3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文 参考訳(メタデータ) (2024-10-04T14:14:28Z) - Efficient and accurate neural field reconstruction using resistive memory [52.68088466453264]
デジタルコンピュータにおける従来の信号再構成手法は、ソフトウェアとハードウェアの両方の課題に直面している。
本稿では,スパース入力からの信号再構成のためのソフトウェア・ハードウェア協調最適化を用いた体系的アプローチを提案する。
この研究は、AI駆動の信号復元技術を進歩させ、将来の効率的で堅牢な医療AIと3Dビジョンアプリケーションへの道を開く。
論文 参考訳(メタデータ) (2024-04-15T09:33:09Z) - Accelerator-driven Data Arrangement to Minimize Transformers Run-time on
Multi-core Architectures [5.46396577345121]
人工知能におけるトランスフォーマーモデルの複雑さは、計算コスト、メモリ使用量、エネルギー消費を拡大します。
ハードウェアアクセラレーターのカーネルサイズに支配される新しいメモリアレンジメント戦略を提案し,オフチップデータアクセスを効果的に最小化する。
我々の手法は、最先端の変圧器を用いた推論を実行する場合、最大2.8倍の速度向上を実現することができる。
論文 参考訳(メタデータ) (2023-12-20T13:01:25Z) - MCUFormer: Deploying Vision Transformers on Microcontrollers with
Limited Memory [76.02294791513552]
我々はMCUFormerと呼ばれるハードウェア・アルゴリズムの協調最適化手法を提案し、メモリが極端に制限されたマイクロコントローラにビジョントランスフォーマーを配置する。
MCUFormerは320KBのメモリを持つ画像分類のためのImageNet上で73.62%のTop-1精度を実現している。
論文 参考訳(メタデータ) (2023-10-25T18:00:26Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - IMBUE: In-Memory Boolean-to-CUrrent Inference ArchitecturE for Tsetlin
Machines [5.6634493664726495]
機械学習(ML)アプリケーションのためのインメモリコンピューティングは、並列性と局所性を活用するために計算を整理することで、フォン・ノイマンのボトルネックを修復する。
Resistive RAM(ReRAM)のような不揮発性メモリデバイスは、MLアプリケーションに有望なパフォーマンスを示す、統合的なスイッチングとストレージ機能を提供する。
本稿では,ReRAMトランジスタセルを用いたメモリ内Boolean-to-Current Inference Architecture (IMBUE)を提案する。
論文 参考訳(メタデータ) (2023-05-22T10:55:01Z) - COMPAQT: Compressed Waveform Memory Architecture for Scalable Qubit
Control [0.0]
超伝導アーキテクチャでは、クビットの状態はマイクロ波パルスを用いて操作される。
波形メモリは、キュービットを操作するのに数ギガバイト/秒の帯域を必要とする。
波形は高い圧縮性を示し、この特性を利用してスケーラブルで効率的なマイクロアーキテクチャを実現する。
論文 参考訳(メタデータ) (2022-12-07T19:00:17Z) - AnalogNets: ML-HW Co-Design of Noise-robust TinyML Models and Always-On
Analog Compute-in-Memory Accelerator [50.31646817567764]
本稿では,キーワードスポッティング (KWS) と視覚覚醒語 (VWW) を常用するTinyMLモデルについて述べる。
アナログ非イデオロギーに面した精度を維持するため、包括的学習手法を詳述する。
また、プログラム可能な最小領域位相変化メモリ(PCM)アナログCiMアクセラレータであるAON-CiMについて述べる。
論文 参考訳(メタデータ) (2021-11-10T10:24:46Z) - Memory-efficient Speech Recognition on Smart Devices [15.015948023187809]
リカレントトランスデューサモデルは、スマートデバイス上での音声認識のための有望なソリューションとして登場した。
これらのモデルは、デバイスのバッテリー寿命に悪影響を及ぼす入力時間ステップ毎のオフチップメモリからパラメータにアクセスし、低消費電力デバイスでのユーザビリティを制限する。
トランスデューサモデルのメモリアクセスに関する懸念を、モデルアーキテクチャの最適化と新規なリカレントセル設計により解決します。
論文 参考訳(メタデータ) (2021-02-23T07:43:45Z) - TinyTL: Reduce Activations, Not Trainable Parameters for Efficient
On-Device Learning [78.80707950262214]
デバイス上での学習により、エッジデバイスはAIモデルを新しいデータに継続的に適応できる。
既存の作業は、トレーニング可能なパラメータの数を減らすことで、この問題を解決する。
メモリ効率の高いオンデバイス学習のためのTiny-Transfer-Learning(TinyTL)を提案する。
論文 参考訳(メタデータ) (2020-07-22T18:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。