論文の概要: Efficient transformer adaptation for analog in-memory computing via low-rank adapters
- arxiv url: http://arxiv.org/abs/2411.17367v3
- Date: Thu, 11 Sep 2025 21:49:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 14:04:02.872321
- Title: Efficient transformer adaptation for analog in-memory computing via low-rank adapters
- Title(参考訳): 低ランクアダプタを用いたアナログインメモリコンピューティングのための効率的なトランスフォーマー適応
- Authors: Chen Li, Elena Ferro, Corey Lammie, Manuel Le Gallo, Irem Boybat, Bipin Rajendran,
- Abstract要約: 本稿では,AIMCハードウェアにトランスフォーマーを効率的に適応するための新しいアプローチであるAHWA-LoRAトレーニングを提案する。
AHWA-LoRAトレーニングでは、アナログウェイトをメタウェイトとして固定し、ハードウェアおよびタスク適応用の軽量な外部LoRAモジュールを導入している。
このハイブリッドアーキテクチャは、完全なAIMC実装と比較して、層当たり4%のオーバーヘッドで効率的なトランスフォーマー推論を実現する。
- 参考スコア(独自算出の注目度): 3.677694126416212
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Analog In-Memory Computing (AIMC) offers a promising solution to the von Neumann bottleneck. However, deploying transformer models on AIMC remains challenging due to their inherent need for flexibility and adaptability across diverse tasks. For the benefits of AIMC to be fully realized, weights of static vector-matrix multiplications must be mapped and programmed to analog devices in a weight-stationary manner. This poses two challenges for adapting a base network to hardware and downstream tasks: (i) conventional analog hardware-aware (AHWA) training requires retraining the entire model, and (ii) reprogramming analog devices is both time- and energy-intensive. To address these issues, we propose Analog Hardware-Aware Low-Rank Adaptation (AHWA-LoRA) training, a novel approach for efficiently adapting transformers to AIMC hardware. AHWA-LoRA training keeps the analog weights fixed as meta-weights and introduces lightweight external LoRA modules for both hardware and task adaptation. We validate AHWA-LoRA training on SQuAD v1.1 and the GLUE benchmark, demonstrate its scalability to larger models, and show its effectiveness in instruction tuning and reinforcement learning. We further evaluate a practical deployment scenario that balances AIMC tile latency with digital LoRA processing using optimized pipeline strategies, with RISC-V-based programmable multi-core accelerators. This hybrid architecture achieves efficient transformer inference with only a 4% per-layer overhead compared to a fully AIMC implementation.
- Abstract(参考訳): Analog In-Memory Computing (AIMC)は、フォン・ノイマンのボトルネックに対する有望な解決策を提供する。
しかし、トランスフォーマーモデルをAIMCにデプロイすることは、さまざまなタスクにまたがって柔軟性と適応性を必要とするため、依然として困難である。
AIMCの利点を十分に実現するためには、静的ベクトル行列乗算の重みをマッピングし、定常的にアナログデバイスにプログラムする必要がある。
これは、ベースネットワークをハードウェアおよびダウンストリームタスクに適用する上で、2つの課題を提起する。
(i)従来のアナログハードウェア・アウェア(AHWA)トレーニングでは、モデル全体をトレーニングする必要がある。
(II)アナログデバイスの再プログラミングは時間とエネルギーの両方集約的である。
これらの問題に対処するために,AIMCハードウェアにトランスフォーマーを効率的に適応するための新しいアプローチであるAHWA-LoRAトレーニングを提案する。
AHWA-LoRAトレーニングでは、アナログウェイトをメタウェイトとして固定し、ハードウェアおよびタスク適応用の軽量な外部LoRAモジュールを導入している。
我々は,SQuAD v1.1とGLUEベンチマークのAHWA-LoRAトレーニングを検証し,大規模モデルのスケーラビリティを実証し,指導指導と強化学習の有効性を示した。
さらに、最適化パイプライン戦略を用いて、AIMCタイル遅延とデジタルLoRA処理のバランスをとる実用的なデプロイメントシナリオと、RISC-Vベースのプログラム可能なマルチコアアクセラレータを併用して評価する。
このハイブリッドアーキテクチャは、完全なAIMC実装と比較して、層当たり4%のオーバーヘッドで効率的なトランスフォーマー推論を実現する。
関連論文リスト
- Adaptive End-to-End Transceiver Design for NextG Pilot-Free and CP-Free Wireless Systems [18.330923801141886]
パイロットフリーでCPフリーな無線システムに適した適応型エンドツーエンド(E2E)トランシーバアーキテクチャを提案する。
このアーキテクチャは、AI駆動の星座形成と、ジョイントトレーニングによるニューラルレシーバーを組み合わせる。
提案するフレームワークは,様々なチャネルシナリオに対して,より優れたビットエラー率(BER),スループット,レジリエンスを提供する。
論文 参考訳(メタデータ) (2025-10-29T11:34:09Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Large Language Model-Empowered Decision Transformer for UAV-Enabled Data Collection [71.84636717632206]
空間分散デバイスからの信頼性とエネルギー効率のよいデータ収集のための無人航空機(UAV)は、IoT(Internet of Things)アプリケーションをサポートする上で大きな可能性を秘めている。
有効なUAV制御ポリシーを学習するための共同言語モデル(LLM)を提案する。
LLM-CRDTは、現在の最先端DTアプローチよりも最大36.7%高いエネルギー効率を達成し、オンラインおよびオフラインメソッドのベンチマークより優れている。
論文 参考訳(メタデータ) (2025-09-17T13:05:08Z) - A Transformer-Based Conditional GAN with Multiple Instance Learning for UAV Signal Detection and Classification [17.586093539522327]
本稿では,トランスフォーマーをベースとしたGAN(Generative Adversarial Network)とMILET(Multiple Examplely Explainable Learning)を統合した新しいフレームワークを提案する。
実験の結果,DroneDetectデータセットでは96.5%,DroneRFデータセットでは98.6%の精度が得られた。
このフレームワークはまた、様々なUAVプラットフォームと飛行状態にまたがる強力な計算効率と堅牢な一般化を示す。
論文 参考訳(メタデータ) (2025-07-19T12:35:45Z) - Rapid yet accurate Tile-circuit and device modeling for Analog In-Memory Computing [4.566622328597218]
低レベルの歪みやノイズの影響を定量化し,アナログタイルにマッピングした乗算積演算(MAC)の数学的モデルを開発する。
単純なガウス雑音を用いたハードウェアの微調整は、ADC量子化やPCMリードノイズ効果に対してレジリエンスをもたらすが、IR-dropに対しては効果が低いことを示す。
論文 参考訳(メタデータ) (2025-05-05T22:56:49Z) - AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。
既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。
本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文 参考訳(メタデータ) (2025-02-27T14:46:22Z) - Task Delay and Energy Consumption Minimization for Low-altitude MEC via Evolutionary Multi-objective Deep Reinforcement Learning [52.64813150003228]
無人航空機や他の航空機による低高度経済(LAE)は、輸送、農業、環境監視といった分野に革命をもたらした。
今後の6世代(6G)時代において、UAV支援移動エッジコンピューティング(MEC)は特に山岳や災害に遭った地域のような困難な環境において重要である。
タスクオフロード問題は、主にタスク遅延の最小化とUAVのエネルギー消費のトレードオフに対処するUAV支援MECの重要な問題の一つである。
論文 参考訳(メタデータ) (2025-01-11T02:32:42Z) - FLARE: FP-Less PTQ and Low-ENOB ADC Based AMS-PiM for Error-Resilient, Fast, and Efficient Transformer Acceleration [7.37841083168521]
本稿では,DQ-Q処理を不要にし,FPUおよび分割自由非線形処理を導入し,低ENOB-ADCに基づくスパース行列ベクトル乗法を用いるAMS-PiMアーキテクチャを提案する。
RAPは数値安定性を維持しながら、エラー回復力、面積/エネルギー効率、計算速度を改善する。
論文 参考訳(メタデータ) (2024-11-22T05:01:35Z) - Replay-Free Continual Low-Rank Adaptation with Dynamic Memory [62.85596937435928]
我々は、事前学習された視覚変換器(ViT)が、時間とともに新しい下流タスクを逐次微調整できる連続学習を再考する。
近年の研究では、CL技術とパラメータ効率の良い微調整の交差が強調されている。
DualLoRA (Dual Low-Rank Adaptation) と呼ばれる新しいPEFT-CL法を提案する。
論文 参考訳(メタデータ) (2024-11-01T14:28:39Z) - Pipeline Gradient-based Model Training on Analog In-memory Accelerators [27.7426132507863]
インメモリAIMCアクセラレータは、エネルギー効率のよい方法で大規模なディープニューラルモデル(DNN)のトレーニングを加速することができる。
我々は、デジタルドメインのパイプラインにインスパイアされたAIMCアクセラレーターに対して、同期および非同期パイプライン並列性を提案する。
本稿では、サンプリングとクロックサイクルの複雑さの観点から、同期パイプラインと非同期パイプラインの両方に理論的収束を保証する。
論文 参考訳(メタデータ) (2024-10-19T16:58:34Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。
提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。
Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-08-19T17:48:11Z) - Auto-Train-Once: Controller Network Guided Automatic Network Pruning from Scratch [72.26822499434446]
オートトレインオース (Auto-Train-Once, ATO) は、DNNの計算コストと記憶コストを自動的に削減するために設計された、革新的なネットワークプルーニングアルゴリズムである。
総合的な収束解析と広範な実験を行い,本手法が様々なモデルアーキテクチャにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-03-21T02:33:37Z) - Efficient Language Model Architectures for Differentially Private
Federated Learning [21.280600854272716]
クロスデバイス・フェデレーション・ラーニング(Cross-device Federated Learning, FL)は、デバイスを離れることなく、数百万のエッジデバイスに分散したデータ上でモデルをトレーニングするテクニックである。
言語モデルの集中的なトレーニングでは、安定性とパフォーマンスの向上を提供するため、適応が望ましい。
ニューラルリカレントセルにおけるシグモイドとタンハの活性化を修飾することにより、SI CIFG (Coupled Input Forget Gate) 再カレントネットワークを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:21:48Z) - OnDev-LCT: On-Device Lightweight Convolutional Transformers towards
federated learning [29.798780069556074]
フェデレートラーニング(FL)は、複数のエッジデバイスにまたがる機械学習モデルを協調的にトレーニングするための、有望なアプローチとして登場した。
トレーニングデータとリソースに制限のあるオンデバイスビジョンタスクのための軽量畳み込み変換器を提案する。
論文 参考訳(メタデータ) (2024-01-22T02:17:36Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - RACE-IT: A Reconfigurable Analog CAM-Crossbar Engine for In-Memory
Transformer Acceleration [21.196696191478885]
Transformer ModelはDeep Neural Networks(DNN)の最先端を表現している。
これらのモデルを処理するには、かなりの計算資源が必要で、結果としてかなりのメモリフットプリントが要求される。
本稿では,トランスフォーマ内で様々な非MVM操作を行うことのできる新しいAnalog Content Addressable Memory(ACAM)構造を提案する。
論文 参考訳(メタデータ) (2023-11-29T22:45:39Z) - Pluggable Neural Machine Translation Models via Memory-augmented Adapters [25.26982333390014]
プリトレーニングされたNMTモデルをプラガブルな方法でステアリングするためのメモリ拡張アダプタを提案する。
具体的には,ユーザが提供するテキストサンプルに基づいて,多粒性メモリを構築する。
また,NMTモデルとメモリ間の素早い依存関係を低減するため,メモリドロップアウトを用いたトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:23:41Z) - Exploring the Performance and Efficiency of Transformer Models for NLP
on Mobile Devices [3.809702129519641]
新しいディープニューラルネットワーク(DNN)アーキテクチャとアプローチが数年毎に登場し、この分野の進歩が加速している。
トランスフォーマーは、AIタスク全体で新しいレベルの精度を達成した比較的新しいモデルファミリである。
この作業は、Transformersのオンデバイス実行の現在の状態を調べて、このギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2023-06-20T10:15:01Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Real-time Neural-MPC: Deep Learning Model Predictive Control for
Quadrotors and Agile Robotic Platforms [59.03426963238452]
モデル予測制御パイプライン内の動的モデルとして,大規模で複雑なニューラルネットワークアーキテクチャを効率的に統合するフレームワークであるReal-time Neural MPCを提案する。
ニューラルネットワークを使わずに、最先端のMPCアプローチと比較して、位置追跡誤差を最大82%削減することで、実世界の問題に対する我々のフレームワークの実現可能性を示す。
論文 参考訳(メタデータ) (2022-03-15T09:38:15Z) - Optimization for Master-UAV-powered Auxiliary-Aerial-IRS-assisted IoT
Networks: An Option-based Multi-agent Hierarchical Deep Reinforcement
Learning Approach [56.84948632954274]
本稿では,無人航空機(MUAV)搭載のIoT(Internet of Things)ネットワークについて検討する。
本稿では、インテリジェント反射面(IRS)を備えた充電可能な補助UAV(AUAV)を用いて、MUAVからの通信信号を強化することを提案する。
提案モデルでは,IoTネットワークの蓄積スループットを最大化するために,これらのエネルギー制限されたUAVの最適協調戦略について検討する。
論文 参考訳(メタデータ) (2021-12-20T15:45:28Z) - Edge Federated Learning Via Unit-Modulus Over-The-Air Computation
(Extended Version) [64.76619508293966]
本稿では,効率の良いエッジフェデレーション学習を実現するために,UM-AirCompフレームワークを提案する。
ローカルモデルパラメータを同時にアップロードし、アナログビームフォーミングを通じてグローバルモデルパラメータを更新する。
車両間自動運転シミュレーションプラットフォームにおけるUM-AirCompの実装を実演する。
論文 参考訳(メタデータ) (2021-01-28T15:10:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。