論文の概要: TPU-Gen: LLM-Driven Custom Tensor Processing Unit Generator
- arxiv url: http://arxiv.org/abs/2503.05951v1
- Date: Fri, 07 Mar 2025 21:41:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:46:36.211501
- Title: TPU-Gen: LLM-Driven Custom Tensor Processing Unit Generator
- Title(参考訳): TPU-Gen: LLM駆動のカスタムテンソルプロセッシングユニット
- Authors: Deepak Vungarala, Mohammed E. Elbtity, Sumiya Syed, Sakila Alam, Kartik Pandit, Arnob Ghosh, Ramtin Zand, Shaahin Angizi,
- Abstract要約: 本稿では,TPU生成プロセスの正確かつ近似的な自動化を目的とした,LLM(Large Language Model)ベースのフレームワークであるTPU-Genを紹介する。
TPU-Genは、広範囲の空間配列設計と近似乗算および累積単位をカバーする、厳密にキュレートされ、包括的でオープンソースのデータセットでサポートされている。
- 参考スコア(独自算出の注目度): 4.479077825955557
- License:
- Abstract: The increasing complexity and scale of Deep Neural Networks (DNNs) necessitate specialized tensor accelerators, such as Tensor Processing Units (TPUs), to meet various computational and energy efficiency requirements. Nevertheless, designing optimal TPU remains challenging due to the high domain expertise level, considerable manual design time, and lack of high-quality, domain-specific datasets. This paper introduces TPU-Gen, the first Large Language Model (LLM) based framework designed to automate the exact and approximate TPU generation process, focusing on systolic array architectures. TPU-Gen is supported with a meticulously curated, comprehensive, and open-source dataset that covers a wide range of spatial array designs and approximate multiply-and-accumulate units, enabling design reuse, adaptation, and customization for different DNN workloads. The proposed framework leverages Retrieval-Augmented Generation (RAG) as an effective solution for a data-scare hardware domain in building LLMs, addressing the most intriguing issue, hallucinations. TPU-Gen transforms high-level architectural specifications into optimized low-level implementations through an effective hardware generation pipeline. Our extensive experimental evaluations demonstrate superior performance, power, and area efficiency, with an average reduction in area and power of 92\% and 96\% from the manual optimization reference values. These results set new standards for driving advancements in next-generation design automation tools powered by LLMs.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)の複雑さとスケールの増大は、様々な計算およびエネルギー効率の要求を満たすために、テンソル処理ユニット(TPU)のような特別なテンソルアクセラレータを必要とする。
それでも、ドメインの専門性の高さ、相当な手作業による設計時間、高品質でドメイン固有のデータセットの欠如など、最適なTPUの設計は依然として困難である。
本稿では,TPU生成プロセスの正確かつ近似的な自動化を目的とした,最初のLarge Language Model (LLM) ベースのフレームワークであるTPU-Genを紹介する。
TPU-Genは、広範囲の空間配列設計と近似的な乗算および累積単位をカバーし、異なるDNNワークロードの設計再利用、適応、カスタマイズを可能にする、細心の注意を要する、包括的でオープンソースのデータセットでサポートされている。
提案フレームワークは,LLM構築におけるデータケアハードウェアドメインの効果的なソリューションとして,検索・拡張生成(RAG)を活用し,最も興味深い問題である幻覚に対処する。
TPU-Genは、効率的なハードウェア生成パイプラインを通じて、高レベルのアーキテクチャ仕様を最適化された低レベルの実装に変換する。
本実験では,手動の最適化基準値から,面積と電力の92.%と96.%を平均的に削減し,性能,電力,面積効率を向上した。
これらの結果から,LLMを用いた次世代設計自動化ツールの進歩を推し進める新たな基準が得られた。
関連論文リスト
- Tackling the Dynamicity in a Production LLM Serving System with SOTA Optimizations via Hybrid Prefill/Decode/Verify Scheduling on Efficient Meta-kernels [12.77187564450236]
本稿では,多機能なAscendネイティブ,エンドツーエンド生産型大規模言語モデル(LLM)サービスシステムであるXY-Serveを紹介する。
中心となる考え方は、計算をきめ細かいメタプリミティブに分解することで、ワークロードの変動を円滑にする抽象化メカニズムである。
GEMMでは,動的形状変化に適応する仮想パディング方式を導入し,高効率な固定タイルサイズGEMMプリミティブを用いた。
論文 参考訳(メタデータ) (2024-12-24T02:27:44Z) - Automatically Learning Hybrid Digital Twins of Dynamical Systems [56.69628749813084]
Digital Twins (DT)は、現実世界のシステムの状態と時間力学をシミュレートする。
DTは、しばしばデータスカース設定で目に見えない条件に一般化するのに苦労します。
本稿では,HDTwinsを自律的に提案し,評価し,最適化するための進化的アルゴリズム(textbfHDTwinGen$)を提案する。
論文 参考訳(メタデータ) (2024-10-31T07:28:22Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - POMONAG: Pareto-Optimal Many-Objective Neural Architecture Generator [4.09225917049674]
Transferable NASが登場し、データセット依存からタスク依存への探索プロセスを一般化した。
本稿では多目的拡散プロセスを通じて拡散NAGを拡張するPOMONAGを紹介する。
結果は、NAS201とMobileNetV3の2つの検索スペースで検証され、15の画像分類データセットで評価された。
論文 参考訳(メタデータ) (2024-09-30T16:05:29Z) - Flex-TPU: A Flexible TPU with Runtime Reconfigurable Dataflow Architecture [0.0]
この作業はFlex-TPUと呼ばれる再構成可能なデータフローTPUの開発で構成されており、実行時に層ごとのデータフローを動的に変更することができる。
その結果,Flex-TPUの設計は従来のTPUに比べて2.75倍の大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2024-07-11T17:33:38Z) - Mechanistic Design and Scaling of Hybrid Architectures [114.3129802943915]
我々は、様々な計算プリミティブから構築された新しいハイブリッドアーキテクチャを特定し、テストする。
本研究では,大規模計算最適法則と新しい状態最適スケーリング法則解析を用いて,結果のアーキテクチャを実験的に検証する。
我々は,MAD合成法と計算-最適パープレキシティを相関させ,新しいアーキテクチャの正確な評価を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:33:12Z) - Heterogeneous Integration of In-Memory Analog Computing Architectures
with Tensor Processing Units [0.0]
本稿では,IMACユニットとエッジTPUを統合してモバイルCNNの性能を向上させる,新しい,異種,混合信号,混合精度アーキテクチャを提案する。
本稿では,TPU-IMACアーキテクチャ上にモデルをデプロイする際の潜在的な精度低下を軽減するために,混合精度トレーニング手法を取り入れた統合学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-18T19:44:56Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Hardware-Efficient Deconvolution-Based GAN for Edge Computing [1.5229257192293197]
Generative Adversarial Networks (GAN) は、学習したデータ分布に基づいて新しいデータサンプルを生成する最先端のアルゴリズムである。
我々は、スケーラブルなストリーミングデータフローアーキテクチャを用いてFPGA上に実装された量子化デコンボリューションGAN(QDCGAN)のトレーニングのためのHW/SW共同設計手法を提案する。
リソース制約のあるプラットフォーム上での低消費電力推論のために,様々な精度,データセット,ネットワークスケーラビリティを解析した。
論文 参考訳(メタデータ) (2022-01-18T11:16:59Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Reconfigurable Intelligent Surface Assisted Mobile Edge Computing with
Heterogeneous Learning Tasks [53.1636151439562]
モバイルエッジコンピューティング(MEC)は、AIアプリケーションに自然なプラットフォームを提供します。
再構成可能なインテリジェントサーフェス(RIS)の助けを借りて、MECで機械学習タスクを実行するインフラストラクチャを提示します。
具体的には,モバイルユーザの送信パワー,基地局のビームフォーミングベクトル,risの位相シフト行列を共同で最適化することにより,参加ユーザの学習誤差を最小化する。
論文 参考訳(メタデータ) (2020-12-25T07:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。