Fugu-MT 論文翻訳(概要): Scalable LLM Math Reasoning Acceleration with Low-rank Distillation

論文の概要: Scalable LLM Math Reasoning Acceleration with Low-rank Distillation

arxiv url: http://arxiv.org/abs/2505.07861v1
Date: Thu, 08 May 2025 17:51:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-14 20:57:54.232233
Title: Scalable LLM Math Reasoning Acceleration with Low-rank Distillation
Title（参考訳）: 低ランク蒸留による拡張型LLM数学推論高速化
Authors: Harry Dong, Bilge Acun, Beidi Chen, Yuejie Chi,
Abstract要約: そこで本研究では,効率的な推論手法の展開から損失能力を回収するための低コスト蒸留法を提案する。もともとの重みは未成熟で、パラメータの約1%、合成トレーニングサンプルは20Kに過ぎなかった。
参考スコア（独自算出の注目度）: 29.422419193066837
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Due to long generations, large language model (LLM) math reasoning demands significant computational resources and time. While many existing efficient inference methods have been developed with excellent performance preservation on language tasks, they often severely degrade math performance. In this paper, we propose Caprese, a low-cost distillation method to recover lost capabilities from deploying efficient inference methods, focused primarily in feedforward blocks. With original weights unperturbed, roughly 1% of additional parameters, and only 20K synthetic training samples, we are able to recover much if not all of the math capabilities lost from efficient inference for thinking LLMs and without harm to language tasks for instruct LLMs. Moreover, Caprese slashes the number of active parameters (~2B cut for Gemma 2 9B and Llama 3.1 8B) and integrates cleanly into existing model layers to reduce latency (>11% reduction to generate 2048 tokens with Qwen 2.5 14B) while encouraging response brevity.
Abstract（参考訳）: 長い世代のために、大きな言語モデル(LLM)の数学的推論は、かなりの計算資源と時間を必要とする。多くの既存の効率的な推論手法が言語タスクの性能を保ちながら開発されているが、それらはしばしば算数性能を著しく劣化させる。本稿では,主にフィードフォワードブロックに着目した効率的な推論手法により,損失機能を回収する低コスト蒸留法であるCapreseを提案する。元の重みは未成熟で、追加パラメータの約1%、合成訓練サンプルは20Kに過ぎず、LLMの思考やLLMの指導のための言語タスクに支障を来さずに、効率的な推論から失った数学能力の全てを回復することができる。さらに、Capreseはアクティブパラメータの数(Gemma 2 9BとLlama 3.1 8Bで約2Bカット)を削減し、既存のモデル層にクリーンに統合してレイテンシを低減し(>11%削減してQwen 2.5 14Bで2048トークンを生成する)、応答の簡潔さを奨励する。

関連論文リスト

SparseLoRA: Accelerating LLM Fine-Tuning with Contextual Sparsity [52.88892280536302]
SparseLoRAは,コンテキスト空間の空間的分散によって微調整を高速化する手法である。 SparseLoRAは計算コストを最大2.2倍、測定速度を最大1.6倍に削減する。
論文参考訳（メタデータ） (2025-06-19T17:53:34Z)
Skipping Computations in Multimodal LLMs [63.29737699997859]
本研究では,マルチモーダル大言語モデル(MLLM)における推論時の冗長性について検討する。ブロック全体,FFN,自己保持層をスキップするなど,計算をスキップするさまざまな手法を提案する。本研究は,推定時に大量の計算を回避できることを実証した。
論文参考訳（メタデータ） (2024-10-12T09:21:45Z)
Q-Sparse: All Large Language Models can be Fully Sparsely-Activated [93.45300714803429]
Q-Sparseは、スパースアクティベートされた大規模言語モデル(LLM)を訓練するための、シンプルで効果的なアプローチである。 Q-Sparse は LLM における活性化の完全な分散を可能にし、推論においてかなりの効率向上をもたらす。バッチトレーニングと推論のためのBlock Q-Sparseも導入しています。
論文参考訳（メタデータ） (2024-07-15T17:59:29Z)
ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization [13.622268474310918]
ShiftAddLLMは大規模言語モデルの効率的な乗算自由モデルである。 5.6および22.7ポイントのパープレキシティ改善を同等または低いレイテンシで達成する。 5つのLLMファミリーと8つのタスクの実験は、ShiftAddLLMの有効性を一貫して検証している。
論文参考訳（メタデータ） (2024-06-10T02:47:55Z)
VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections [35.133698935322634]
大規模言語モデル(LLM)は、最近、多くの言語処理タスクに対処するための強力なツールとして登場した。勾配勾配勾配を用いた効率的なモデル収束に必要な重要な成分を同定し,特徴付ける。この結果から, 微調整と事前学習の両方のための, 安価かつメモリ効率のよいアルゴリズムが得られた。
論文参考訳（メタデータ） (2024-05-28T09:23:14Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文参考訳（メタデータ） (2024-04-05T02:35:43Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。