Fugu-MT 論文翻訳(概要): Efficient Deployment of Transformer Models in Analog In-Memory Computing Hardware

論文の概要: Efficient Deployment of Transformer Models in Analog In-Memory Computing Hardware

arxiv url: http://arxiv.org/abs/2411.17367v1
Date: Tue, 26 Nov 2024 12:20:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 21:01:15.912335
Title: Efficient Deployment of Transformer Models in Analog In-Memory Computing Hardware
Title（参考訳）: アナログインメモリ・コンピューティング・ハードウェアにおけるトランスフォーマーモデルの効率的な展開
Authors: Chen Li, Corey Lammie, Manuel Le Gallo, Bipin Rajendran,
Abstract要約: 本稿では,AIMCハードウェア上に事前学習したトランスフォーマーモデルをデプロイするための新しい手法を提案する。ハードウェアを意識したトレーニングを必要とする従来のアプローチとは異なり、当社の手法はオリジナルのモデルを再トレーニングすることなく、ダイレクトデプロイメントを可能にします。提案手法は,複数のタスクにまたがって単一のアナログモデルを再利用できるため,マルチタスクシナリオにおいて特に魅力的である。
参考スコア（独自算出の注目度）: 3.4499067894101465
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Analog in-memory computing (AIMC) has emerged as a promising solution to overcome the von Neumann bottleneck, accelerating neural network computations and improving computational efficiency. While AIMC has demonstrated success with architectures such as CNNs, MLPs, and RNNs, deploying transformer-based models using AIMC presents unique challenges. Transformers are expected to handle diverse downstream tasks and adapt to new user data or instructions after deployment, which requires more flexible approaches to suit AIMC constraints. In this paper, we propose a novel method for deploying pre-trained transformer models onto AIMC hardware. Unlike traditional approaches requiring hardware-aware training, our technique allows direct deployment without the need for retraining the original model. Instead, we utilize lightweight, low-rank adapters -- compact modules stored in digital cores -- to adapt the model to hardware constraints. We validate our approach on MobileBERT, demonstrating accuracy on par with, or even exceeding, a traditional hardware-aware training approach. Our method is particularly appealing in multi-task scenarios, as it enables a single analog model to be reused across multiple tasks. Moreover, it supports on-chip adaptation to new hardware constraints and tasks without updating analog weights, providing a flexible and versatile solution for real-world AI applications. Code is available.
Abstract（参考訳）: アナログインメモリコンピューティング(AIMC)は、フォン・ノイマンのボトルネックを克服し、ニューラルネットワークの計算を加速し、計算効率を向上させるための有望なソリューションとして登場した。 AIMCはCNN、MLP、RNNなどのアーキテクチャで成功を収めているが、AIMCを使用したトランスフォーマーベースのモデルのデプロイにはユニークな課題がある。トランスフォーマーは、さまざまなダウンストリームタスクを処理し、デプロイ後の新たなユーザデータやインストラクションに適応することが期待されている。本稿では,AIMCハードウェアに事前学習したトランスフォーマーモデルをデプロイするための新しい手法を提案する。ハードウェアを意識したトレーニングを必要とする従来のアプローチとは異なり、当社の手法はオリジナルのモデルを再トレーニングすることなく、ダイレクトデプロイメントを可能にします。代わりに、軽量で低ランクなアダプタ -- デジタルコアに格納されたコンパクトモジュール -- を使って、モデルをハードウェアの制約に適応します。 MobileBERTに対する我々のアプローチを検証し、従来のハードウェア対応トレーニング手法と同程度、あるいはそれ以上の精度で検証する。提案手法は,複数のタスクにまたがって単一のアナログモデルを再利用できるため,マルチタスクシナリオにおいて特に魅力的である。さらに、アナログウェイトを更新することなく、新しいハードウェア制約やタスクへのオンチップ適応をサポートし、現実のAIアプリケーションに柔軟で汎用的なソリューションを提供する。コードは利用可能。

関連論文リスト

AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文参考訳（メタデータ） (2025-02-27T14:46:22Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。 Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文参考訳（メタデータ） (2024-08-19T17:48:11Z)
Auto-Train-Once: Controller Network Guided Automatic Network Pruning from Scratch [72.26822499434446]
オートトレインオース (Auto-Train-Once, ATO) は、DNNの計算コストと記憶コストを自動的に削減するために設計された、革新的なネットワークプルーニングアルゴリズムである。総合的な収束解析と広範な実験を行い,本手法が様々なモデルアーキテクチャにおける最先端性能を実現することを示す。
論文参考訳（メタデータ） (2024-03-21T02:33:37Z)
Efficient Language Model Architectures for Differentially Private Federated Learning [21.280600854272716]
クロスデバイス・フェデレーション・ラーニング(Cross-device Federated Learning, FL)は、デバイスを離れることなく、数百万のエッジデバイスに分散したデータ上でモデルをトレーニングするテクニックである。言語モデルの集中的なトレーニングでは、安定性とパフォーマンスの向上を提供するため、適応が望ましい。ニューラルリカレントセルにおけるシグモイドとタンハの活性化を修飾することにより、SI CIFG (Coupled Input Forget Gate) 再カレントネットワークを提案する。
論文参考訳（メタデータ） (2024-03-12T22:21:48Z)
OnDev-LCT: On-Device Lightweight Convolutional Transformers towards federated learning [29.798780069556074]
フェデレートラーニング(FL)は、複数のエッジデバイスにまたがる機械学習モデルを協調的にトレーニングするための、有望なアプローチとして登場した。トレーニングデータとリソースに制限のあるオンデバイスビジョンタスクのための軽量畳み込み変換器を提案する。
論文参考訳（メタデータ） (2024-01-22T02:17:36Z)
Machine Learning Insides OptVerse AI Solver: Design Principles and Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文参考訳（メタデータ） (2024-01-11T15:02:15Z)
RACE-IT: A Reconfigurable Analog CAM-Crossbar Engine for In-Memory Transformer Acceleration [21.196696191478885]
Transformer ModelはDeep Neural Networks(DNN)の最先端を表現している。これらのモデルを処理するには、かなりの計算資源が必要で、結果としてかなりのメモリフットプリントが要求される。本稿では,トランスフォーマ内で様々な非MVM操作を行うことのできる新しいAnalog Content Addressable Memory(ACAM)構造を提案する。
論文参考訳（メタデータ） (2023-11-29T22:45:39Z)
Pluggable Neural Machine Translation Models via Memory-augmented Adapters [25.26982333390014]
プリトレーニングされたNMTモデルをプラガブルな方法でステアリングするためのメモリ拡張アダプタを提案する。具体的には,ユーザが提供するテキストサンプルに基づいて,多粒性メモリを構築する。また,NMTモデルとメモリ間の素早い依存関係を低減するため,メモリドロップアウトを用いたトレーニング戦略を提案する。
論文参考訳（メタデータ） (2023-07-12T09:23:41Z)
Exploring the Performance and Efficiency of Transformer Models for NLP on Mobile Devices [3.809702129519641]
新しいディープニューラルネットワーク(DNN)アーキテクチャとアプローチが数年毎に登場し、この分野の進歩が加速している。トランスフォーマーは、AIタスク全体で新しいレベルの精度を達成した比較的新しいモデルファミリである。この作業は、Transformersのオンデバイス実行の現在の状態を調べて、このギャップを埋めることを目的としている。
論文参考訳（メタデータ） (2023-06-20T10:15:01Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
Real-time Neural-MPC: Deep Learning Model Predictive Control for Quadrotors and Agile Robotic Platforms [59.03426963238452]
モデル予測制御パイプライン内の動的モデルとして,大規模で複雑なニューラルネットワークアーキテクチャを効率的に統合するフレームワークであるReal-time Neural MPCを提案する。ニューラルネットワークを使わずに、最先端のMPCアプローチと比較して、位置追跡誤差を最大82%削減することで、実世界の問題に対する我々のフレームワークの実現可能性を示す。
論文参考訳（メタデータ） (2022-03-15T09:38:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。