論文の概要: Hardwired-Neurons Language Processing Units as General-Purpose Cognitive Substrates
- arxiv url: http://arxiv.org/abs/2508.16151v1
- Date: Fri, 22 Aug 2025 07:20:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.287766
- Title: Hardwired-Neurons Language Processing Units as General-Purpose Cognitive Substrates
- Title(参考訳): 汎用認知材料としてのハードワイヤ・ニューロン言語処理ユニット
- Authors: Yang Liu, Yi Chen, Yongwei Zhao, Yifan Hao, Zifu Zheng, Weihao Kong, Zhangmai Li, Dongchen Jiang, Ruiyang Xia, Zhihong Ma, Zisheng Liu, Zhaoyong Wan, Yunqi Lu, Ximing Liu, Hongrui Guo, Zhihao Yang, Zhe Wang, Tianrui Ma, Mo Zou, Rui Zhang, Ling Li, Xing Hu, Zidong Du, Zhiwei Xu, Qi Guo, Tianshi Chen, Yunji Chen,
- Abstract要約: HNLPU(Hardwired-Neurons Language Processing Unit)
金属埋め込みは、金属ワイヤの3次元トポロジーに重みパラメータを埋め込む。
HNLPUは8.57倍のコスト効率と230倍の炭素フットプリントを達成した。
- 参考スコア(独自算出の注目度): 38.25739111656049
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of Large Language Models (LLMs) has established language as a core general-purpose cognitive substrate, driving the demand for specialized Language Processing Units (LPUs) tailored for LLM inference. To overcome the growing energy consumption of LLM inference systems, this paper proposes a Hardwired-Neurons Language Processing Unit (HNLPU), which physically hardwires LLM weight parameters into the computational fabric, achieving several orders of magnitude computational efficiency improvement by extreme specialization. However, a significant challenge still lies in the scale of modern LLMs. An ideal estimation on hardwiring gpt-oss 120 B requires fabricating at least 6 billion dollars of photomask sets, rendering the straightforward solution economically impractical. Addressing this challenge, we propose the novel Metal-Embedding methodology. Instead of embedding weights in a 2D grid of silicon device cells, Metal-Embedding embeds weight parameters into the 3D topology of metal wires. This brings two benefits: (1) a 15x increase in density, and (2) 60 out of 70 layers of photomasks are made homogeneous across chips, including all EUV photomasks. In total, Metal-Embedding reduced the photomask cost by 112x, bringing the Non-Recurring Engineering (NRE) cost of HNLPU into an economically viable range. Experimental results show that HNLPU achieved 249,960 tokens/s (5,555x/85x of GPU/WSE), 36 tokens/J (1,047x/283x of GPU/WSE), 13,232 mm2 total die area (29% inscribed rectangular area in a 300 mm wafer), \$184M estimated NRE at 5 nm technology. Analysis shows that HNLPU achieved 8.57x cost-effectiveness and 230x carbon footprint reduction compared to H100 clusters, under an annual weight updating assumption.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、LLM推論に適した特殊言語処理ユニット(LPU)の需要を推し進め、中核的な汎用認知基盤として言語を確立している。
本稿では, LLMの重みパラメータを計算ファブリックに物理的にハードワイヤし, 計算効率を極端に高め, 数桁の計算効率向上を実現したHNLPU(Hardwired-Neurons Language Processing Unit)を提案する。
しかし、依然として重要な課題は現代のLLMの規模にある。
ハード配線gpt-oss 120Bの理想的な推定には、60億ドルのフォトマスクセットを製造する必要がある。
この課題に対処するため、我々は新しいメタ・エンベディング手法を提案する。
シリコンデバイスセルの2Dグリッドに重みを埋め込む代わりに、Metal-Embeddingは金属ワイヤーの3Dトポロジーに重みパラメータを埋め込む。
1)密度が15倍増加し、(2)70層のフォトマスクのうち60層が、全EUVフォトマスクを含むチップ間で均質化されている。
メタル・エンベディングは、光マスクのコストを112倍に削減し、HNLPUのNon-Recurring Engineering (NRE) コストを経済的に実行可能な範囲へと引き上げた。
HNLPUは249,960トークン/s(GPU/WSE 5,555x/85x)、36トークン/J(GPU/WSE 1,047x/283x)、13,232mm2トータルダイエリア(300mmウエハの矩形面積29%)、および184MのNREを5nm技術で推定した。
HNLPUはH100クラスタに比べて8.57倍のコスト効率と230倍の炭素フットプリント削減を達成した。
関連論文リスト
- $γ-$MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models [87.43596173378913]
我々は既存のMLLMに対して$gamma$-MoDという革新的な戦略を提案する。
$gamma$-MoD では、MLLM における MoD の展開を導くための新しい計量法が提案されている。
MLLMの計算空間を最大化する2つの新しい設計法を提案する。
論文 参考訳(メタデータ) (2024-10-17T17:59:53Z) - Harnessing Your DRAM and SSD for Sustainable and Accessible LLM Inference with Mixed-Precision and Multi-level Caching [35.83447642182576]
大規模言語モデル(LLM)は目覚ましい能力を示している。
LLMの展開は、現在のAIアプリケーションから排出される二酸化炭素の主要な部分である。
本稿では,古いハードウェア上でのLCM推論を可能にするモデルモジュール化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T08:33:39Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
LLM低ビット量のみの量子化のためのハードウェアフレンドリーなアプローチであるActivation-Aware Weight Quantization (AWQ)を提案する。
AWQ は 1% の正重みしか保護せず,命令調整型 LM とマルチモーダル LM の量子化性能に優れる。
また,4ビットオンデバイスLLM/VLMに適した,効率的なフレキシブルな推論フレームワークであるTinyChatを実装した。
論文 参考訳(メタデータ) (2023-06-01T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。