論文の概要: Scalable LLM Math Reasoning Acceleration with Low-rank Distillation
- arxiv url: http://arxiv.org/abs/2505.07861v1
- Date: Thu, 08 May 2025 17:51:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.232233
- Title: Scalable LLM Math Reasoning Acceleration with Low-rank Distillation
- Title(参考訳): 低ランク蒸留による拡張型LLM数学推論高速化
- Authors: Harry Dong, Bilge Acun, Beidi Chen, Yuejie Chi,
- Abstract要約: そこで本研究では,効率的な推論手法の展開から損失能力を回収するための低コスト蒸留法を提案する。
もともとの重みは未成熟で、パラメータの約1%、合成トレーニングサンプルは20Kに過ぎなかった。
- 参考スコア(独自算出の注目度): 29.422419193066837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to long generations, large language model (LLM) math reasoning demands significant computational resources and time. While many existing efficient inference methods have been developed with excellent performance preservation on language tasks, they often severely degrade math performance. In this paper, we propose Caprese, a low-cost distillation method to recover lost capabilities from deploying efficient inference methods, focused primarily in feedforward blocks. With original weights unperturbed, roughly 1% of additional parameters, and only 20K synthetic training samples, we are able to recover much if not all of the math capabilities lost from efficient inference for thinking LLMs and without harm to language tasks for instruct LLMs. Moreover, Caprese slashes the number of active parameters (~2B cut for Gemma 2 9B and Llama 3.1 8B) and integrates cleanly into existing model layers to reduce latency (>11% reduction to generate 2048 tokens with Qwen 2.5 14B) while encouraging response brevity.
- Abstract(参考訳): 長い世代のために、大きな言語モデル(LLM)の数学的推論は、かなりの計算資源と時間を必要とする。
多くの既存の効率的な推論手法が言語タスクの性能を保ちながら開発されているが、それらはしばしば算数性能を著しく劣化させる。
本稿では,主にフィードフォワードブロックに着目した効率的な推論手法により,損失機能を回収する低コスト蒸留法であるCapreseを提案する。
元の重みは未成熟で、追加パラメータの約1%、合成訓練サンプルは20Kに過ぎず、LLMの思考やLLMの指導のための言語タスクに支障を来さずに、効率的な推論から失った数学能力の全てを回復することができる。
さらに、Capreseはアクティブパラメータの数(Gemma 2 9BとLlama 3.1 8Bで約2Bカット)を削減し、既存のモデル層にクリーンに統合してレイテンシを低減し(>11%削減してQwen 2.5 14Bで2048トークンを生成する)、応答の簡潔さを奨励する。
関連論文リスト
- Skipping Computations in Multimodal LLMs [63.29737699997859]
本研究では,マルチモーダル大言語モデル(MLLM)における推論時の冗長性について検討する。
ブロック全体,FFN,自己保持層をスキップするなど,計算をスキップするさまざまな手法を提案する。
本研究は,推定時に大量の計算を回避できることを実証した。
論文 参考訳(メタデータ) (2024-10-12T09:21:45Z) - Q-Sparse: All Large Language Models can be Fully Sparsely-Activated [93.45300714803429]
Q-Sparseは、スパースアクティベートされた大規模言語モデル(LLM)を訓練するための、シンプルで効果的なアプローチである。
Q-Sparse は LLM における活性化の完全な分散を可能にし、推論においてかなりの効率向上をもたらす。
バッチトレーニングと推論のためのBlock Q-Sparseも導入しています。
論文 参考訳(メタデータ) (2024-07-15T17:59:29Z) - ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization [13.622268474310918]
ShiftAddLLMは大規模言語モデルの効率的な乗算自由モデルである。
5.6および22.7ポイントのパープレキシティ改善を同等または低いレイテンシで達成する。
5つのLLMファミリーと8つのタスクの実験は、ShiftAddLLMの有効性を一貫して検証している。
論文 参考訳(メタデータ) (2024-06-10T02:47:55Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。