論文の概要: AttentionLego: An Open-Source Building Block For Spatially-Scalable
Large Language Model Accelerator With Processing-In-Memory Technology
- arxiv url: http://arxiv.org/abs/2401.11459v1
- Date: Sun, 21 Jan 2024 10:48:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 16:20:22.239796
- Title: AttentionLego: An Open-Source Building Block For Spatially-Scalable
Large Language Model Accelerator With Processing-In-Memory Technology
- Title(参考訳): attentionlego: プロセッシング・イン・メモリ技術を用いた空間スカラー大言語モデルアクセラレーションのためのオープンソースビルディングブロック
- Authors: Rongqing Cong, Wenyang He, Mingxuan Li, Bangning Luo, Zebin Yang,
Yuchao Yang, Ru Huang, Bonan Yan
- Abstract要約: 自己注意はトランスフォーマーベース大規模言語モデル(LLM)の中で最も支配的なサブ構造である
この研究は空間展開可能なLLMプロセッサを構築するための基本的なビルディングブロックとして、完全にカスタマイズされたバニラ自己アテンションアクセラレータであるAttentionLegoを開発した。
AttentionLegoは、Processing-In-Memory (PIM)技術を取り入れた、完全にカスタマイズされたデジタルロジックの基本的な実装を提供する。
- 参考スコア(独自算出の注目度): 6.415144482153439
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) with Transformer architectures have become
phenomenal in natural language processing, multimodal generative artificial
intelligence, and agent-oriented artificial intelligence. The self-attention
module is the most dominating sub-structure inside Transformer-based LLMs.
Computation using general-purpose graphics processing units (GPUs) inflicts
reckless demand for I/O bandwidth for transferring intermediate calculation
results between memories and processing units. To tackle this challenge, this
work develops a fully customized vanilla self-attention accelerator,
AttentionLego, as the basic building block for constructing spatially
expandable LLM processors. AttentionLego provides basic implementation with
fully-customized digital logic incorporating Processing-In-Memory (PIM)
technology. It is based on PIM-based matrix-vector multiplication and look-up
table-based Softmax design. The open-source code is available online:
https://bonany.cc/attentionleg.
- Abstract(参考訳): トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)は、自然言語処理、マルチモーダル生成人工知能、エージェント指向人工知能において驚くべきものとなっている。
セルフアテンションモジュールはトランスフォーマーベースのllmの中で最も支配的なサブ構造である。
汎用グラフィックス処理ユニット(GPU)を用いた計算は、メモリと処理ユニット間で中間計算結果を転送するI/O帯域に対する無謀な要求を生じさせる。
この課題に取り組むため、本研究では空間拡張可能なllmプロセッサを構築するための基本構築ブロックとして、完全にカスタマイズされたバニラセルフアテンションアクセラレータである attentionlego を開発した。
AttentionLegoは、Processing-In-Memory (PIM)技術を取り入れた、完全にカスタマイズされたデジタルロジックの基本的な実装を提供する。
PIMベースの行列ベクトル乗算とルックアップテーブルベースのSoftmax設計に基づいている。
オープンソースコードは、https://bonany.cc/attentionleg.com/。
関連論文リスト
- Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Using the Abstract Computer Architecture Description Language to Model
AI Hardware Accelerators [77.89070422157178]
AI統合製品の製造者は、製品のパフォーマンス要件に適合するアクセラレータを選択するという、重大な課題に直面します。
抽象コンピュータアーキテクチャ記述言語(ACADL)は、コンピュータアーキテクチャブロック図の簡潔な形式化である。
本稿では,AIハードウェアアクセラレーションのモデル化にACADLを用いること,DNNのマッピングにACADL記述を使用し,タイミングシミュレーションのセマンティクスを解説し,性能評価結果の収集を行う。
論文 参考訳(メタデータ) (2024-01-30T19:27:16Z) - Engineering A Large Language Model From Scratch [0.0]
AtinukeはTransformerベースのニューラルネットワークで、さまざまな言語タスクのパフォーマンスを最適化する。
特徴を抽出し、複雑なマッピングを学習することで、人間のような言語をエミュレートすることができる。
システムは、解釈可能で堅牢なまま、自然言語タスクの最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-01-30T04:29:48Z) - DEAP: Design Space Exploration for DNN Accelerator Parallelism [0.0]
大規模言語モデル(LLM)はますます複雑で、訓練やサービスにも強力になっています。
本稿では、ハードウェアとソフトウェアの共同設計がどのように連携し、カスタマイズされたハードウェアシステムを構築するかを示す。
論文 参考訳(メタデータ) (2023-12-24T02:43:01Z) - Confidant: Customizing Transformer-based LLMs via Collaborative Edge
Training [18.526329975259483]
トランスフォーマーベースの大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて印象的な機能を示している。
コンピューティング、メモリ、エネルギー予算に制限のあるモバイルエッジデバイスにLSMをデプロイし、微調整することは困難である。
我々は,コモディティモバイルデバイス上での最先端のLCMをカスタマイズするためのマルチバックエンド協調学習フレームワークであるConfidantを提案する。
論文 参考訳(メタデータ) (2023-11-22T13:20:59Z) - RedCoast: A Lightweight Tool to Automate Distributed Training of LLMs on
Any GPU/TPUs [33.39013733151192]
大規模言語モデル(LLM)の分散トレーニングと推論を自動化するツールであるRedCoastを紹介する。
また,3つの関数の定義により,多様なMLパイプラインをカスタマイズする機構を提案する。
論文 参考訳(メタデータ) (2023-10-25T04:32:35Z) - CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。
我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。
CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文 参考訳(メタデータ) (2023-05-31T05:24:48Z) - Ghost in the Minecraft: Generally Capable Agents for Open-World
Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。
我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。
LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文 参考訳(メタデータ) (2023-05-25T17:59:49Z) - Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。
我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。
Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-12-15T20:51:27Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。