論文の概要: AttentionLego: An Open-Source Building Block For Spatially-Scalable
Large Language Model Accelerator With Processing-In-Memory Technology
- arxiv url: http://arxiv.org/abs/2401.11459v1
- Date: Sun, 21 Jan 2024 10:48:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 16:20:22.239796
- Title: AttentionLego: An Open-Source Building Block For Spatially-Scalable
Large Language Model Accelerator With Processing-In-Memory Technology
- Title(参考訳): attentionlego: プロセッシング・イン・メモリ技術を用いた空間スカラー大言語モデルアクセラレーションのためのオープンソースビルディングブロック
- Authors: Rongqing Cong, Wenyang He, Mingxuan Li, Bangning Luo, Zebin Yang,
Yuchao Yang, Ru Huang, Bonan Yan
- Abstract要約: 自己注意はトランスフォーマーベース大規模言語モデル(LLM)の中で最も支配的なサブ構造である
この研究は空間展開可能なLLMプロセッサを構築するための基本的なビルディングブロックとして、完全にカスタマイズされたバニラ自己アテンションアクセラレータであるAttentionLegoを開発した。
AttentionLegoは、Processing-In-Memory (PIM)技術を取り入れた、完全にカスタマイズされたデジタルロジックの基本的な実装を提供する。
- 参考スコア(独自算出の注目度): 6.415144482153439
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) with Transformer architectures have become
phenomenal in natural language processing, multimodal generative artificial
intelligence, and agent-oriented artificial intelligence. The self-attention
module is the most dominating sub-structure inside Transformer-based LLMs.
Computation using general-purpose graphics processing units (GPUs) inflicts
reckless demand for I/O bandwidth for transferring intermediate calculation
results between memories and processing units. To tackle this challenge, this
work develops a fully customized vanilla self-attention accelerator,
AttentionLego, as the basic building block for constructing spatially
expandable LLM processors. AttentionLego provides basic implementation with
fully-customized digital logic incorporating Processing-In-Memory (PIM)
technology. It is based on PIM-based matrix-vector multiplication and look-up
table-based Softmax design. The open-source code is available online:
https://bonany.cc/attentionleg.
- Abstract(参考訳): トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)は、自然言語処理、マルチモーダル生成人工知能、エージェント指向人工知能において驚くべきものとなっている。
セルフアテンションモジュールはトランスフォーマーベースのllmの中で最も支配的なサブ構造である。
汎用グラフィックス処理ユニット(GPU)を用いた計算は、メモリと処理ユニット間で中間計算結果を転送するI/O帯域に対する無謀な要求を生じさせる。
この課題に取り組むため、本研究では空間拡張可能なllmプロセッサを構築するための基本構築ブロックとして、完全にカスタマイズされたバニラセルフアテンションアクセラレータである attentionlego を開発した。
AttentionLegoは、Processing-In-Memory (PIM)技術を取り入れた、完全にカスタマイズされたデジタルロジックの基本的な実装を提供する。
PIMベースの行列ベクトル乗算とルックアップテーブルベースのSoftmax設計に基づいている。
オープンソースコードは、https://bonany.cc/attentionleg.com/。
関連論文リスト
- DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - Universal Approximation Theory: The Basic Theory for Transformer-based Large Language Models [9.487731634351787]
大規模トランスフォーマーネットワークは、自然言語処理アルゴリズムの進歩において、急速に主要なアプローチとなっている。
本稿では,大規模言語モデル(LLM)の理論的基礎について考察する。
理論的な背景を提供し、これらの進歩を支えるメカニズムに光を当てている。
論文 参考訳(メタデータ) (2024-07-01T04:29:35Z) - Memory Is All You Need: An Overview of Compute-in-Memory Architectures for Accelerating Large Language Model Inference [2.9302211589186244]
大規模言語モデル(LLM)は自然言語処理を変換し、機械が人間のようなテキストを生成し、意味のある会話を行うことを可能にする。
計算と記憶能力の発達はムーアの法則の廃止によってさらに悪化している。
コンピュート・イン・メモリ(CIM)技術は、メモリ内でアナログ計算を直接実行することにより、AI推論を加速するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-06-12T16:57:58Z) - Using the Abstract Computer Architecture Description Language to Model
AI Hardware Accelerators [77.89070422157178]
AI統合製品の製造者は、製品のパフォーマンス要件に適合するアクセラレータを選択するという、重大な課題に直面します。
抽象コンピュータアーキテクチャ記述言語(ACADL)は、コンピュータアーキテクチャブロック図の簡潔な形式化である。
本稿では,AIハードウェアアクセラレーションのモデル化にACADLを用いること,DNNのマッピングにACADL記述を使用し,タイミングシミュレーションのセマンティクスを解説し,性能評価結果の収集を行う。
論文 参考訳(メタデータ) (2024-01-30T19:27:16Z) - DEAP: Design Space Exploration for DNN Accelerator Parallelism [0.0]
大規模言語モデル(LLM)はますます複雑で、訓練やサービスにも強力になっています。
本稿では、ハードウェアとソフトウェアの共同設計がどのように連携し、カスタマイズされたハードウェアシステムを構築するかを示す。
論文 参考訳(メタデータ) (2023-12-24T02:43:01Z) - RedCoast: A Lightweight Tool to Automate Distributed Training of LLMs on Any GPU/TPUs [32.01139974519813]
大規模言語モデル(LLM)の分散トレーニングと推論を自動化するツールであるRedCoastを紹介する。
また,3つの関数の定義により,多様なMLパイプラインをカスタマイズする機構を提案する。
その結果、Redcoの実装は公式実装に比べてコード行数が大幅に減った。
論文 参考訳(メタデータ) (2023-10-25T04:32:35Z) - CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。
我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。
CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文 参考訳(メタデータ) (2023-05-31T05:24:48Z) - Ghost in the Minecraft: Generally Capable Agents for Open-World
Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。
我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。
LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文 参考訳(メタデータ) (2023-05-25T17:59:49Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。