論文の概要: Analog Foundation Models
- arxiv url: http://arxiv.org/abs/2505.09663v2
- Date: Fri, 16 May 2025 15:24:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 12:32:17.900185
- Title: Analog Foundation Models
- Title(参考訳): アナログ基礎モデル
- Authors: Julian Büchel, Iason Chalas, Giovanni Acampa, An Chen, Omobayode Fagbohungbe, Sidney Tsai, Kaoutar El Maghraoui, Manuel Le Gallo, Abbas Rahimi, Abu Sebastian,
- Abstract要約: アナログインメモリコンピューティング(AIMC)は、ニューラルネットワーク計算の速度と電力効率を改善するための有望な計算パラダイムである。
AIMCは、ノイズ計算や入力と量子化に関する厳密な推論といった基本的な課題を導入している。
低精度アナログハードウェア上で堅牢な適応と実行を実現するための,汎用的なスケーラブルな手法を提案する。
- 参考スコア(独自算出の注目度): 6.589590906512612
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Analog in-memory computing (AIMC) is a promising compute paradigm to improve speed and power efficiency of neural network inference beyond the limits of conventional von Neumann-based architectures. However, AIMC introduces fundamental challenges such as noisy computations and strict constraints on input and output quantization. Because of these constraints and imprecisions, off-the-shelf LLMs are not able to achieve 4-bit-level performance when deployed on AIMC-based hardware. While researchers previously investigated recovering this accuracy gap on small, mostly vision-based models, a generic method applicable to LLMs pre-trained on trillions of tokens does not yet exist. In this work, we introduce a general and scalable method to robustly adapt LLMs for execution on noisy, low-precision analog hardware. Our approach enables state-of-the-art models $\unicode{x2013}$ including Phi-3-mini-4k-instruct and Llama-3.2-1B-Instruct $\unicode{x2013}$ to retain performance comparable to 4-bit weight, 8-bit activation baselines, despite the presence of analog noise and quantization constraints. Additionally, we show that as a byproduct of our training methodology, analog foundation models can be quantized for inference on low-precision digital hardware. Finally, we show that our models also benefit from test-time compute scaling, showing better scaling behavior than models trained with 4-bit weight and 8-bit static input quantization. Our work bridges the gap between high-capacity LLMs and efficient analog hardware, offering a path toward energy-efficient foundation models. Code is available at https://github.com/IBM/analog-foundation-models.
- Abstract(参考訳): アナログインメモリコンピューティング(AIMC)は、従来のフォン・ノイマンアーキテクチャの限界を超えて、ニューラルネットワーク推論の速度と電力効率を改善するための有望な計算パラダイムである。
しかし、AIMCはノイズ計算や入出力量子化の厳密な制約といった基本的な課題を導入している。
これらの制約と不正確さのため、既製のLCMはAIMCベースのハードウェアにデプロイしても4ビットレベルの性能を達成できない。
研究者らは以前、小さな視覚モデルでこの精度のギャップを回復する研究を行ったが、数兆のトークンで事前訓練されたLCMに適用できる一般的な方法はまだ存在していない。
本研究では,ノイズの多い低精度アナログハードウェア上でのLCMの実行に頑健に適応する汎用的かつスケーラブルな手法を提案する。
Phi-3-mini-4k-instructとLlama-3.2-1B-Instruct $\unicode{x2013}$を含む最先端モデル$\unicode{x2013}$を可能にし、アナログノイズや量子化制約があるにもかかわらず、4ビットの重み、8ビットのアクティベーションベースラインに匹敵する性能を維持する。
さらに,本手法の副産物として,低精度ディジタルハードウェア上での推論のために,アナログ基礎モデルの定量化が可能であることを示す。
最後に,本モデルでは,4ビットの重み付けと8ビットの静的入力量子化で訓練したモデルよりも優れたスケーリング挙動を示す。
我々の研究は、高容量LCMと効率的なアナログハードウェアのギャップを埋め、エネルギー効率の良い基礎モデルへの道筋を提供する。
コードはhttps://github.com/IBM/analog-foundation-modelsで入手できる。
関連論文リスト
- QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge [55.75103034526652]
ASIC のハードウェアアクセラレーションによる MDE モデルの定量化を後学習量子化に応用した QuartDepth を提案する。
提案手法では,重みとアクティベーションの両方を4ビット精度で定量化し,モデルサイズと計算コストを削減する。
我々は、カーネル融合とカスタマイズされた命令プログラム性をサポートすることにより、フレキシブルでプログラム可能なハードウェアアクセラレータを設計する。
論文 参考訳(メタデータ) (2025-03-20T21:03:10Z) - SplitQuantV2: Enhancing Low-Bit Quantization of LLMs Without GPUs [10.036727981085223]
SplitQuantV2は、大規模言語モデルの低ビット線形量子化を強化するために設計された革新的なアルゴリズムである。
高度なアルゴリズムに匹敵する結果が得られる。
論文 参考訳(メタデータ) (2025-03-07T14:59:07Z) - QuEST: Stable Training of LLMs with 1-Bit Weights and Activations [27.644652093888745]
QuESTはスパースまたは量子化された言語モデルをトレーニングするための新しい方法である。
我々は,QuESTがハードウェア支援精度の全範囲にわたって,安定したスケーリング法則を導出することを示す。
我々はQuESTで生成されたモデルを効率的に実行可能であることを示すGPUカーネルサポートを提供する。
論文 参考訳(メタデータ) (2025-02-07T15:23:34Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - AnalogNAS: A Neural Network Design Framework for Accurate Inference with
Analog In-Memory Computing [7.596833322764203]
エッジでの推論は低レイテンシ、コンパクト、電力効率のモデルを必要とする。
アナログ/混合信号インメモリコンピューティングハードウェアアクセラレータは、フォン・ノイマンアーキテクチャのメモリ壁を簡単に超越することができる。
本稿では,アナログインメモリコンピューティング(IMC)推論アクセラレータをターゲットとした,DNN(Deep Neural Network)自動設計のためのフレームワークであるAnalogNASを提案する。
論文 参考訳(メタデータ) (2023-05-17T07:39:14Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Neural Network Quantization with AI Model Efficiency Toolkit (AIMET) [15.439669159557253]
AIモデル効率ツールキット(AIMET)を用いたニューラルネットワーク量子化の概要について述べる。
AIMETは、モデル最適化に必要な作業を容易にするために設計された最先端の量子化および圧縮アルゴリズムのライブラリである。
我々は、PTQとQAT、コード例、実用的なヒントを網羅し、AIMETによる量子化の実践的なガイドを提供する。
論文 参考訳(メタデータ) (2022-01-20T20:35:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。