Fugu-MT 論文翻訳(概要): SoftmAP: Software-Hardware Co-design for Integer-Only Softmax on Associative Processors

論文の概要: SoftmAP: Software-Hardware Co-design for Integer-Only Softmax on Associative Processors

arxiv url: http://arxiv.org/abs/2411.17847v1
Date: Tue, 26 Nov 2024 20:00:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-01 15:52:53.439821
Title: SoftmAP: Software-Hardware Co-design for Integer-Only Softmax on Associative Processors
Title（参考訳）: SoftmAP:Integer-Only Softmaxのソフトウェアハードウェア共同設計
Authors: Mariam Rakka, Jinhao Li, Guohao Dai, Ahmed Eltawil, Mohammed E. Fouda, Fadi Kurdahi,
Abstract要約: ソフトマックスやレイヤーノルムのような非線形作用素は、量子化に対する感度のためにボトルネックのままである。 In-Memory Compute (IMC) ハードウェアを用いた整数のみの低精度Softmaxを実装したソフトウェアハードウェアの共同設計手法であるSoftmAPを提案する。
参考スコア（独自算出の注目度）: 1.8999662338457695
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent research efforts focus on reducing the computational and memory overheads of Large Language Models (LLMs) to make them feasible on resource-constrained devices. Despite advancements in compression techniques, non-linear operators like Softmax and Layernorm remain bottlenecks due to their sensitivity to quantization. We propose SoftmAP, a software-hardware co-design methodology that implements an integer-only low-precision Softmax using In-Memory Compute (IMC) hardware. Our method achieves up to three orders of magnitude improvement in the energy-delay product compared to A100 and RTX3090 GPUs, making LLMs more deployable without compromising performance.
Abstract（参考訳）: 最近の研究は、LLM(Large Language Models)の計算およびメモリオーバーヘッドの削減に重点を置いており、リソース制約のあるデバイスで実現可能である。圧縮技術の進歩にもかかわらず、SoftmaxやLayernormのような非線形演算子は量子化に対する感度のためにボトルネックのままである。 In-Memory Compute (IMC) ハードウェアを用いた整数のみの低精度Softmaxを実装したソフトウェアハードウェアの共同設計手法であるSoftmAPを提案する。提案手法は,A100 と RTX3090 GPU と比較して最大3桁のエネルギー遅延改善を実現し,LCM を性能を損なうことなくデプロイしやすくする。

関連論文リスト

AccLLM: Accelerating Long-Context LLM Inference Via Algorithm-Hardware Co-Design [3.64182026498686]
大規模言語モデル(LLM)は自然言語処理(NLP)分野で大きな成功を収めている。 AccLLM は,高速かつ効率的な長文 LLM 推論を実現する包括的アクセラレーションフレームワークである。我々は、Xilinx Alveo U280 FPGA上でAccLLMを検証し、エネルギー効率が4.07倍、スループットが2.98倍であることを示す。
論文参考訳（メタデータ） (2025-04-07T02:52:30Z)
Highly Optimized Kernels and Fine-Grained Codebooks for LLM Inference on Arm CPUs [0.8217552831952]
大きな言語モデル(LLM)は、言語理解と生成に関する考え方を変えました。 LLM量子化によく使われるグループ量子化形式は、計算上のオーバーヘッドとリソース集約型量子化プロセスを持つ。本稿では,LLMの超低精度量子化のためのグループワイド非一様符号ブックに基づく量子化手法を提案する。
論文参考訳（メタデータ） (2024-12-23T03:44:29Z)
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。 DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文参考訳（メタデータ） (2024-11-04T18:26:08Z)
EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
EoRAは、圧縮されたLarge Language Modelを低ランク行列で拡張する微調整不要な手法である。 EoRAは、圧縮LDMの精度を回復するために、トレーニングなしの低ランク法よりも一貫して優れている。
論文参考訳（メタデータ） (2024-10-28T17:59:03Z)
Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。 PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文参考訳（メタデータ） (2024-10-17T11:46:33Z)
SLaNC: Static LayerNorm Calibration [1.2016264781280588]
より精度の低いフォーマットへの量子化は、利用可能な値表現の限られた範囲によって引き起こされる多くの課題を自然に引き起こす。本稿では,推論中のTransformerモデルに容易に適用可能な,計算効率のよいスケーリング手法を提案する。提案手法は,直近の線形層の静的重みに基づくLayerNorm入力のスケーリング方法を提案する。
論文参考訳（メタデータ） (2024-10-14T14:32:55Z)
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文参考訳（メタデータ） (2024-05-09T11:49:05Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。 HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文参考訳（メタデータ） (2024-04-16T06:34:08Z)
ConSmax: Hardware-Friendly Alternative Softmax with Learnable Parameters [14.029865087214436]
自己注意機構は、畳み込みニューラルネットワークと反復ニューラルネットワークとを区別して、トランスフォーマーベースの大規模言語モデル(LLM)を区別する。シリコン上でのリアルタイムLEM推定は、自己注意においてSoftmaxが広く使用されているため、依然として困難である。我々は,ソフトウェアハードウェアの共同設計であるConstant Softmax(ConSmax)を提案する。
論文参考訳（メタデータ） (2024-01-31T17:52:52Z)
A Speed Odyssey for Deployable Quantization of LLMs [19.12232212257625]
量子化アルゴリズムの構築において,ハードウェア中心のアプローチを導入する。我々の方法であるOdysseyLLMは、FastGEMMと呼ばれる新しいW4A8カーネル実装と、量子化戦略のレシピを組み合わせたものである。実験では、Hugging Face FP16や textbf2.23$times$と、最先端の推論エンジンと比較して、実際の速度が textbf4$times$に向上するW4A8メソッドの優位性を示しています。
論文参考訳（メタデータ） (2023-11-16T04:11:19Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
LLM低ビット量のみの量子化のためのハードウェアフレンドリーなアプローチであるActivation-Aware Weight Quantization (AWQ)を提案する。 AWQ は 1% の正重みしか保護せず,命令調整型 LM とマルチモーダル LM の量子化性能に優れる。また,4ビットオンデバイスLLM/VLMに適した,効率的なフレキシブルな推論フレームワークであるTinyChatを実装した。
論文参考訳（メタデータ） (2023-06-01T17:59:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。