論文の概要: Efficient LLMs with AMP: Attention Heads and MLP Pruning
- arxiv url: http://arxiv.org/abs/2504.21174v1
- Date: Tue, 29 Apr 2025 20:50:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 23:24:50.227503
- Title: Efficient LLMs with AMP: Attention Heads and MLP Pruning
- Title(参考訳): AMPを用いた効率的なLCM:アテンションヘッドとMPPプルーニング
- Authors: Leandro Giusti Mugnaini, Bruno Lopes Yamamoto, Lucas Lauton de Alcantara, Victor Zacarias, Edson Bollis, Lucas Pellicer, Anna Helena Reali Costa, Artur Jordao,
- Abstract要約: AMP: Attention Heads and Pruningは,Large Language Models (LLM) を効率的に圧縮する新しい構造化プルーニング手法である。
入力データを重みに投影することで、AMPは構造的重要性を評価し、既存のテクニックの限界を克服する。
AMPはコモンセンス推論タスクの最先端を最大1.49ポイント上回っている。
- 参考スコア(独自算出の注目度): 1.3785656730024138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning drives a new wave in computing systems and triggers the automation of increasingly complex problems. In particular, Large Language Models (LLMs) have significantly advanced cognitive tasks, often matching or even surpassing human-level performance. However, their extensive parameters result in high computational costs and slow inference, posing challenges for deployment in resource-limited settings. Among the strategies to overcome the aforementioned challenges, pruning emerges as a successful mechanism since it reduces model size while maintaining predictive ability. In this paper, we introduce AMP: Attention Heads and MLP Pruning, a novel structured pruning method that efficiently compresses LLMs by removing less critical structures within Multi-Head Attention (MHA) and Multilayer Perceptron (MLP). By projecting the input data onto weights, AMP assesses structural importance and overcomes the limitations of existing techniques, which often fall short in flexibility or efficiency. In particular, AMP surpasses the current state-of-the-art on commonsense reasoning tasks by up to 1.49 percentage points, achieving a 30% pruning ratio with minimal impact on zero-shot task performance. Moreover, AMP also improves inference speeds, making it well-suited for deployment in resource-constrained environments. We confirm the flexibility of AMP on different families of LLMs, including LLaMA and Phi.
- Abstract(参考訳): ディープラーニングは、コンピューティングシステムの新しい波を駆動し、ますます複雑な問題の自動化を引き起こす。
特に、Large Language Models (LLM) は、人間レベルのパフォーマンスにマッチしたり、超えたりして、かなり高度な認知タスクを持っている。
しかし、その広範なパラメータは計算コストが高く、推論が遅くなり、リソース制限された環境でのデプロイが困難になる。
上記の課題を克服する戦略の中で、予測能力を維持しながらモデルサイズを削減できるため、プルーニングは成功のメカニズムとして現れます。
本稿では,MHA (Multi-Head Attention) とMLP (Multilayer Perceptron) の低臨界構造を取り除き,LLMを効率よく圧縮する構造解析手法であるAMP: Attention Heads and MLP Pruningを紹介する。
入力データを重みに投影することで、AMPは構造的重要性を評価し、しばしば柔軟性や効率性に欠ける既存のテクニックの限界を克服する。
特にAMPは、現在のコモンセンス推論タスクの最先端を最大1.49ポイント超え、ゼロショットタスクのパフォーマンスに最小限の影響で30%のプルーニング比を達成している。
さらにAMPは推論速度も向上し、リソース制約のある環境へのデプロイにも適している。
LLaMA や Phi など LLM の異なるファミリーにおける AMP の柔軟性を確認した。
関連論文リスト
- R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - Attention Pruning: Automated Fairness Repair of Language Models via Surrogate Simulated Annealing [14.114970711442512]
本稿では,大規模言語モデル (LLM) におけるアテンションヘッドに対するアテンション・プルーニング(Attention Pruning) を提案する。
我々の実験は、注意喚起によって最大40%の性別バイアスが減少し、最先端のバイアス緩和戦略よりも優れることを示した。
論文 参考訳(メタデータ) (2025-03-20T03:02:32Z) - Efficient Federated Fine-Tuning of Large Language Models with Layer Dropout [15.009864792277236]
ファインチューニングは、訓練済みのLLMが一般的な言語理解からタスク固有の専門知識へと進化できるようにする上で重要な役割を担っている。
この研究は、新しいトランスフォーマードロップアウト方式を採用した革新的フェデレーションPEFTフレームワークであるDropPEFTを提案する。
DropPEFTはモデル収束の1.3-6.3倍の高速化とメモリフットプリントの40%-67%の削減を実現可能であることを示す。
論文 参考訳(メタデータ) (2025-03-13T09:59:16Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Unveiling the Secret Recipe: A Guide For Supervised Fine-Tuning Small LLMs [22.177654792824896]
コスト効率とアクセシビリティのために,小型言語モデル(3Bから7Bパラメータ)に焦点を当てた。
オープンソースで事前トレーニングされた4つのモデルに対して,さまざまなトレーニング構成と戦略について検討する。
i) 学習率の低いバッチサイズと組み合わせることで,MMLUやMTBench,Open LLM Leaderboardといったベンチマーク上でのモデルパフォーマンスが向上します。
論文 参考訳(メタデータ) (2024-12-17T21:16:59Z) - OP-LoRA: The Blessing of Dimensionality [93.08208871549557]
低ランクアダプタは、少数のパラメータしか持たない大型モデルの微調整を可能にする。
しばしば最適化の課題を提起するが、収束性は低い。
推論コストを増大させることなく、トレーニングを加速する過剰パラメータ化アプローチを導入する。
視覚言語タスクの改善、特に画像生成の顕著な向上を実現している。
論文 参考訳(メタデータ) (2024-12-13T18:55:19Z) - Activation Sparsity Opportunities for Compressing General Large Language Models [4.5624217435826]
この研究は、最先端AIモデルにおけるアクティベーション空間の強制とパープレキシティ(精度)のトレードオフを体系的に調査する。
実験により,重要なFFN成分に対する主記憶の約50%と計算量の削減を無視可能な精度劣化で達成できることが実証された。
論文 参考訳(メタデータ) (2024-12-13T02:26:54Z) - Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。
一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文 参考訳(メタデータ) (2024-11-17T01:16:37Z) - Mesa-Extrapolation: A Weave Position Encoding Method for Enhanced Extrapolation in LLMs [12.250524667536606]
大規模言語モデル(LLM)はいまだに困難な外挿問題に悩まされている。
我々はなぜ位置がないのかをよりよく理解するために理論的分析を行う。
(NoPE)は、その有効範囲外では故障し、位置のパワーを検査する。
(PE)。
本稿では,チャンクベースの三角アテンション行列を用いて,最終チャンクの管理にStair-Extrapolationを適用する,新しいウィーブPE手法であるMesaExtrapolationを提案する。
論文 参考訳(メタデータ) (2024-10-21T10:39:05Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - One-Shot Sensitivity-Aware Mixed Sparsity Pruning for Large Language Models [42.95555008229016]
そこで本研究では, ヘッセン感度を意識した混合疎水性プルーニング法を, 再トレーニングを必要とせず, 最低50%の疎水性まで適用する方法を提案する。
提案手法の利点は, 空間が極めて高い場合にさらに顕著である。
論文 参考訳(メタデータ) (2023-10-14T05:43:09Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。