Fugu-MT 論文翻訳(概要): A deeper look at depth pruning of LLMs

論文の概要: A deeper look at depth pruning of LLMs

arxiv url: http://arxiv.org/abs/2407.16286v1
Date: Tue, 23 Jul 2024 08:40:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-24 18:06:10.914359
Title: A deeper look at depth pruning of LLMs
Title（参考訳）: LLMの深絞り加工について
Authors: Shoaib Ahmed Siddiqui, Xin Dong, Greg Heinrich, Thomas Breuel, Jan Kautz, David Krueger, Pavlo Molchanov,
Abstract要約: 大規模言語モデル(LLM)は、トレーニングにはリソース集約的だが、本番環境でのデプロイにはよりコストがかかる。最近の研究は、ブロックの重要性を推定するために、安価なプロキシに基づいてLSMのブロックをプルークしようと試みている。適応メトリクスはタスク間のパフォーマンスのトレードオフを示すことを示す。
参考スコア（独自算出の注目度）: 49.30061112976263
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Language Models (LLMs) are not only resource-intensive to train but even more costly to deploy in production. Therefore, recent work has attempted to prune blocks of LLMs based on cheap proxies for estimating block importance, effectively removing 10% of blocks in well-trained LLaMa-2 and Mistral 7b models without any significant degradation of downstream metrics. In this paper, we explore different block importance metrics by considering adaptive metrics such as Shapley value in addition to static ones explored in prior work. We show that adaptive metrics exhibit a trade-off in performance between tasks i.e., improvement on one task may degrade performance on the other due to differences in the computed block influences. Furthermore, we extend this analysis from a complete block to individual self-attention and feed-forward layers, highlighting the propensity of the self-attention layers to be more amendable to pruning, even allowing removal of upto 33% of the self-attention layers without incurring any performance degradation on MMLU for Mistral 7b (significant reduction in costly maintenance of KV-cache). Finally, we look at simple performance recovery techniques to emulate the pruned layers by training lightweight additive bias or low-rank linear adapters. Performance recovery using emulated updates avoids performance degradation for the initial blocks (up to 5% absolute improvement on MMLU), which is either competitive or superior to the learning-based technique.
Abstract（参考訳）: 大規模言語モデル(LLM)は、トレーニングにリソースを集中するだけでなく、本番環境にデプロイするのにさらにコストがかかる。そのため、近年の研究では、ブロックの重要度を推定するための安価なプロキシに基づいて、LLaMa-2およびMistral 7bモデルのブロックの10%を、ダウンストリームメトリクスを著しく劣化させることなく効果的に除去する試みがなされている。本稿では,先行研究における静的な指標に加えて,Shapley値などの適応的指標を考慮し,ブロックの重要度について検討する。適応的メトリクスはタスク間の性能のトレードオフを示すことを示す。すなわち、あるタスクの改善は、計算されたブロックの影響の違いにより、もう一方のパフォーマンスを低下させる可能性がある。さらに,本分析は,完全ブロックから個別の自己保持層,フィードフォワード層へと拡張され,自己保持層がプルーニングに適合しやすくなり,また,Mistral 7bにおけるMMLUの性能劣化を生じさせることなく,自己保持層の最大33%の除去が可能となった(KV-cacheのコストの大幅な削減)。最後に, 軽量付加バイアスや低ランク線形アダプタを訓練することにより, プルーニング層をエミュレートする簡易な性能回復手法について検討する。エミュレートされた更新を使用したパフォーマンス回復は、初期ブロックのパフォーマンス劣化(MMLUでは最大5%の改善)を回避する。

関連論文リスト

Pruning by Block Benefit: Exploring the Properties of Vision Transformer Blocks during Domain Adaptation [18.23994867489678]
Pruning by Block Benefit (P3B) は、ブロックレベルの相対的寄与を利用してパラメータリソースをグローバルに割り当てるプルーニング手法である。 P3Bは高い性能を保ちながら、70%のパラメータ還元率を持つ高疎度な状態でも0.64%の精度しか失わない。
論文参考訳（メタデータ） (2025-06-30T09:58:25Z)
SDMPrune: Self-Distillation MLP Pruning for Efficient Large Language Models [3.962074007736394]
原モデルの予測を十分に活用するために,プレニング段階(後訓練ではなく)に自己蒸留損失を導入する。提案手法は,既存の刈り取り法よりも大幅に優れていることを示す。提案手法は,1BスケールのオープンソースLLMにおいて,非常に競争力のある性能を実現する。
論文参考訳（メタデータ） (2025-06-10T02:24:32Z)
Towards Extreme Pruning of LLMs with Plug-and-Play Mixed Sparsity [32.668409666483626]
既存のプルーニング手法は主に、プルーニングをガイドするネットワークコンポーネントの重要性を測定するためにメトリクスを設計することに焦点を当てている。本稿では,FIM(Fiher Information Matrix)のトレースに基づく効率的な手法を提案する。そこで本研究では,異なる層に対する最適スパシティレベルを決定するために,プルーニング指向の進化的アルゴリズム(EA)を用いたMixed Sparsity Pruning (MSP)を提案する。
論文参考訳（メタデータ） (2025-03-14T08:05:49Z)
Adapt-Pruner: Adaptive Structural Pruning for Efficient Small Language Model Training [27.857935426067076]
スモール言語モデル (SLM) はエッジデバイスにおける幅広い応用のために注目されている。高い性能を持つSLMを得るには、計算コストがかなりかかるスクラッチからモデルを事前訓練するか、既存の大規模言語モデル(LLM)を圧縮し、事前訓練に比べて性能が低下し低下する。 1) レイヤーワイド適応プルーニング (Adapt-Pruner) は, LLM において極めて有効であり, 既存のプルーニング技術よりも顕著な改善が得られ, 2) さらなるトレーニングを施した適応プルーニングは, スクラッチから事前学習したプルーニングに匹敵するモデルとなる。
論文参考訳（メタデータ） (2025-02-05T18:57:40Z)
Leveraging the true depth of LLMs [46.81174316936993]
大規模言語モデル(LLM)は、高い計算要求を犠牲にして素晴らしい能力を示す。近年の研究では、LCMの中間層を相当な精度の損失なく除去または再配列できることが示されている。本稿では,連続層を並列に評価したペアにグループ化する手法を提案する。
論文参考訳（メタデータ） (2025-02-05T00:26:27Z)
FlexiGPT: Pruning and Extending Large Language Models with Low-Rank Weight Sharing [59.12511498024836]
本稿では,重み付けスコアに基づいてモデルブロックを選択的にプルーする大規模言語モデル(LLM)をプルーする手法を提案する。重み共有機構を用いて各刈り込みブロックを置換する原理的計量を提案する。経験的評価は、既存の方法よりも大幅にパフォーマンスが向上したことを示している。
論文参考訳（メタデータ） (2025-01-24T18:46:37Z)
SPAM: Spike-Aware Adam with Momentum Reset for Stable LLM Training [60.9776082805359]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示しているが、そのトレーニングは、非常にリソース集約的で、トレーニングの不安定性に影響を受けやすいままである。本稿では,LLMトレーニング中に観測された勾配スパイクを包括的に調査し,複数のアーキテクチャやデータセットにまたがる傾向を明らかにする。本稿では,モーメントムリセットを用いたスパイク・アウェア・アダムを提案し,モーメントムリセットとスパイク・アウェア・クリッピングによる勾配スパイク対策について述べる。
論文参考訳（メタデータ） (2025-01-12T15:21:22Z)
LLM-BIP: Structured Pruning for Large Language Models with Block-Wise Forward Importance Propagation [0.0]
ブロック単位の重要スコアの伝搬に基づくより正確なプルーニング指標を提案する。我々は,LLaMA-7B,Vicuna-7B,LLaMA-13Bを用いて,共通ゼロショットタスクを用いて提案手法の評価を行った。
論文参考訳（メタデータ） (2024-12-09T11:57:16Z)
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。 Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文参考訳（メタデータ） (2024-10-24T19:48:51Z)
PAT: Pruning-Aware Tuning for Large Language Models [19.622152991641045]
大規模言語モデルは言語タスク、特に事前訓練後の教師付き微調整において優れている。伝統的なポストホットプルーニングは、しばしばパフォーマンスを著しく損なう。モデル冗長性を排除するために,Pruning-Aware Tuning(PAT)パラダイムを提案する。
論文参考訳（メタデータ） (2024-08-27T01:04:14Z)
Anti-Collapse Loss for Deep Metric Learning Based on Coding Rate Metric [99.19559537966538]
DMLは、分類、クラスタリング、検索といった下流タスクのための識別可能な高次元埋め込み空間を学習することを目的としている。埋め込み空間の構造を維持し,特徴の崩壊を避けるために,反崩壊損失と呼ばれる新しい損失関数を提案する。ベンチマークデータセットの総合実験により,提案手法が既存の最先端手法より優れていることを示す。
論文参考訳（メタデータ） (2024-07-03T13:44:20Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
MLAE: Masked LoRA Experts for Visual Parameter-Efficient Fine-Tuning [45.93128932828256]
Masked LoRA Experts (MLAE) は、視覚的PEFTにマスキングの概念を適用する革新的なアプローチである。本手法は,低ランク行列を独立したランク1サブマトリクスに変換するセル分解戦略を組み込んだものである。 MLAEは,VTAB-1kベンチマークでは平均78.8%,FGVCベンチマークでは90.9%の精度で,新しい最先端(SOTA)性能を実現する。
論文参考訳（メタデータ） (2024-05-29T08:57:23Z)
FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文参考訳（メタデータ） (2024-04-05T02:35:43Z)
Streamlining Redundant Layers to Compress Large Language Models [21.27944103424621]
本稿では,LLM-Streamlineについて紹介する。 LLM-Streamlineは2つの部分から構成される: 層プルーニング(Layer pruning)は、ターゲットの間隔に基づいて最も重要でない連続的な層を除去する。実験により, LLM-Streamlineは, 性能および訓練効率の両面において, 先行および同時のプルーニング法よりも優れた性能を示した。
論文参考訳（メタデータ） (2024-03-28T04:12:13Z)
The Unreasonable Ineffectiveness of the Deeper Layers [5.984361440126354]
本研究では,オープンウェイトプレトレーニング LLM の一般家庭を対象とした簡易な階層分割戦略について検討する。レイヤーの大部分が取り除かれるまで、パフォーマンスの最小限の劣化が見られます。科学的見地からすると、これらのLCMの堅牢性からレイヤの削除は、現在の事前学習手法がネットワークの深い層におけるパラメータを適切に活用していない、あるいは浅い層が知識を保存する上で重要な役割を担っていることを示唆している。
論文参考訳（メタデータ） (2024-03-26T17:20:04Z)
Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文参考訳（メタデータ） (2023-11-16T09:07:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。