論文の概要: Leveraging the true depth of LLMs
- arxiv url: http://arxiv.org/abs/2502.02790v1
- Date: Wed, 05 Feb 2025 00:26:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:28:45.279057
- Title: Leveraging the true depth of LLMs
- Title(参考訳): LLMの真の深さの活用
- Authors: Ramón Calvo González, Daniele Paliotta, Matteo Pagliardini, Martin Jaggi, François Fleuret,
- Abstract要約: 大規模言語モデルは高い計算要求を犠牲にして素晴らしい能力を示す。
本研究では,事前学習したLLMの深度を,性能に悪影響を及ぼすことなく低減する方法をいくつか検討する。
本稿では,これらを並列に評価可能なペアにグループ化することで,層間の疎結合を利用した新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 46.81174316936993
- License:
- Abstract: Large Language Models demonstrate remarkable capabilities at the cost of high compute requirements. While recent research has shown that intermediate layers can be removed or have their order shuffled without impacting performance significantly, these findings have not been employed to reduce the computational cost of inference. We investigate several potential ways to reduce the depth of pre-trained LLMs without significantly affecting performance. Leveraging our insights, we present a novel approach that exploits this decoupling between layers by grouping some of them into pairs that can be evaluated in parallel. This modification of the computational graph -- through better parallelism -- results in an average improvement of around 1.20x on the number of tokens generated per second, without re-training nor fine-tuning, while retaining 95%-99% of the original accuracy. Empirical evaluation demonstrates that this approach significantly improves serving efficiency while maintaining model performance, offering a practical improvement for large-scale LLM deployment.
- Abstract(参考訳): 大規模言語モデルは高い計算要求を犠牲にして素晴らしい能力を示す。
最近の研究では、中間層は性能に大きな影響を与えずに取り除いたり、順序をシャッフルさせたりできることが示されているが、これらの結果は推論の計算コストを削減するために使われていない。
本研究では,事前学習したLLMの深度を,性能に悪影響を及ぼすことなく低減する方法をいくつか検討する。
私たちの洞察を生かして、並列に評価可能なペアにグループ化することで、レイヤ間の分離を利用した、新しいアプローチを提示します。
この計算グラフの変更は、より優れた並列性を通じて、元の精度の95%-99%を維持しながら、再トレーニングや微調整をすることなく、1秒あたりのトークン数の平均1.20倍の改善をもたらす。
実験的な評価は、このアプローチがモデル性能を維持しながらサービス効率を著しく改善し、大規模LLMデプロイメントに実用的な改善をもたらすことを示している。
関連論文リスト
- Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - On Effects of Steering Latent Representation for Large Language Model Unlearning [4.058064008234271]
Representation Misdirection for Unlearning (RMU)は、大規模言語モデル(LLM)の学習に有効な方法である。
中間層での表現を忘れることによってトークンの信頼性が低下し,LSMが間違った応答やナンセンスな応答を発生させることを示す。
適応的RMU(Adaptive RMU)は,ほとんどの層で非学習を効果的に行う,シンプルで効果的な代替手法である。
論文 参考訳(メタデータ) (2024-08-12T15:24:50Z) - Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
Adaptive Sparse Trainer (AST)は、半構造化スパースモデルに適した、新規で効率的なリトレーニングフレームワークである。
ASTは、密度と2:4の半構造化スパースモデルのパープレキシティとゼロショット精度のギャップをそれぞれ0.6と1.16%に削減する。
論文 参考訳(メタデータ) (2024-07-30T06:33:44Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。
その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-25T21:49:09Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。