論文の概要: FinerCut: Finer-grained Interpretable Layer Pruning for Large Language Models
- arxiv url: http://arxiv.org/abs/2405.18218v2
- Date: Sun, 20 Oct 2024 09:10:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:11:41.175655
- Title: FinerCut: Finer-grained Interpretable Layer Pruning for Large Language Models
- Title(参考訳): FinerCut: 大規模言語モデルのための有限粒度解釈可能な層プルーニング
- Authors: Yang Zhang, Yawei Li, Xinpeng Wang, Qianli Shen, Barbara Plank, Bernd Bischl, Mina Rezaei, Kenji Kawaguchi,
- Abstract要約: FinerCutは変圧器ネットワークのための微細な層プルーニングの新たな形式である。
Llama3-8Bは25%の層を除去し,Llama3-70Bは95%の層を除去した。
- 参考スコア(独自算出の注目度): 54.787308652357794
- License:
- Abstract: Overparametrized transformer networks are the state-of-the-art architecture for Large Language Models (LLMs). However, such models contain billions of parameters making large compute a necessity, while raising environmental concerns. To address these issues, we propose FinerCut, a new form of fine-grained layer pruning, which in contrast to prior work at the transformer block level, considers all self-attention and feed-forward network (FFN) layers within blocks as individual pruning candidates. FinerCut prunes layers whose removal causes minimal alternation to the model's output -- contributing to a new, lean, interpretable, and task-agnostic pruning method. Tested across 9 benchmarks, our approach retains 90% performance of Llama3-8B with 25% layers removed, and 95% performance of Llama3-70B with 30% layers removed, all without fine-tuning or post-pruning reconstruction. Strikingly, we observe intriguing results with FinerCut: 42% (34 out of 80) of the self-attention layers in Llama3-70B can be removed while preserving 99% of its performance -- without additional fine-tuning after removal. Moreover, FinerCut provides a tool to inspect the types and locations of pruned layers, allowing to observe interesting pruning behaviors. For instance, we observe a preference for pruning self-attention layers, often at deeper consecutive decoder layers. We hope our insights inspire future efficient LLM architecture designs.
- Abstract(参考訳): 過度に並列化されたトランスフォーマーネットワークは、LLM(Large Language Models)の最先端アーキテクチャである。
しかし、そのようなモデルには数十億のパラメータが含まれており、環境問題を引き起こしている。
これらの問題に対処するため,我々はFinerCutを提案する。FinerCutは,トランスフォーマーブロックレベルでの以前の作業とは対照的に,ブロック内のすべての自己アテンションとフィードフォワードネットワーク(FFN)層を個別のプルーニング候補として検討する。
FinerCutは、削除がモデルの出力に最小限の変更をもたらすレイヤを抜粋する -- 新しい、リーンで、解釈可能で、タスクに依存しないプルーニングメソッドに寄与する。
9つのベンチマークでテストした結果、25%の層が取り除かれたLlama3-8Bの90%のパフォーマンスを維持し、30%の層が取り除かれたLlama3-70Bの95%のパフォーマンスを維持しています。
Llama3-70Bの自己保持層のうち42%(80点中34点)は、削除後の微調整を伴わず、パフォーマンスの99%を維持しながら取り除くことができる。
さらにFinerCutは、プルーニングされたレイヤのタイプと場所を検査するツールを提供しており、興味深いプルーニングの振る舞いを観察することができる。
例えば、我々は、しばしばより深い連続的なデコーダ層において、自己注意層を刈り取ることを好む。
私たちの洞察が将来の効率的なLLMアーキテクチャ設計を刺激することを期待しています。
関連論文リスト
- SHARP-Net: A Refined Pyramid Network for Deficiency Segmentation in Culverts and Sewer Pipes [1.663204995903499]
SHARP-Netはセマンティックセグメンテーションのための新しいアーキテクチャである。
Inceptionのようなブロックとさまざまなフィルタサイズを備えたボトムアップパスを統合している。
ネットワーク全体を通して、複雑さを減らすために深度的に分離可能な畳み込みが使用される。
論文 参考訳(メタデータ) (2024-08-02T23:55:04Z) - A deeper look at depth pruning of LLMs [49.30061112976263]
大規模言語モデル(LLM)は、トレーニングにはリソース集約的だが、本番環境でのデプロイにはよりコストがかかる。
最近の研究は、ブロックの重要性を推定するために、安価なプロキシに基づいてLSMのブロックをプルークしようと試みている。
適応メトリクスはタスク間のパフォーマンスのトレードオフを示すことを示す。
論文 参考訳(メタデータ) (2024-07-23T08:40:27Z) - Multi-Dimensional Pruning: Joint Channel, Layer and Block Pruning with Latency Constraint [7.757464614718271]
既存のプルーニング手法はチャネルプルーニングに限られており、アグレッシブパラメータ削減に苦慮している。
チャネル, 層, ブロック間のプルーニングを協調的に最適化する新しい多次元プルーニングフレームワークを提案する。
3次元物体検出において,StreamPETRを45%のプルーニング比で刈り上げ,FPS (37.3 vs. 31.7) とmAP (0.451 vs. 0.449) を高密度ベースラインより高めることにより,新たな最先端技術を確立する。
論文 参考訳(メタデータ) (2024-06-17T20:40:09Z) - BlockPruner: Fine-grained Pruning for Large Language Models [23.523314522663455]
研究によると、大きな言語モデル(LLM)の特定のレイヤは、かなりの冗長性を持ち、これらのレイヤを刈り取ることは、全体的なパフォーマンスに最小限の影響を与える。
そこで我々は,BlockPrunerと呼ばれる新しい,トレーニング不要な構造化プルーニング手法を提案する。
我々は,BlockPrunerが最先端のベースラインよりも粒度が高く,効率的なプルーニングを実現していることを示す。
論文 参考訳(メタデータ) (2024-06-15T11:03:33Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - LaCo: Large Language Model Pruning via Layer Collapse [56.92068213969036]
トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。
モデル量子化、知識蒸留、モデルプルーニングといった既存の手法は、様々な問題によって制約されている。
後部モデル層が前層に崩壊する「textitLayer Collapse (LaCo)」と呼ばれる簡潔な層構造プルーナーを提案する。
論文 参考訳(メタデータ) (2024-02-17T04:16:30Z) - Cut Inner Layers: A Structured Pruning Strategy for Efficient U-Net GANs [2.8360662552057323]
本研究は, 条件付きGANのU-Netジェネレータ上での構造化プルーニングを行う。
層ごとの感度解析により、ボトルネックに近い最内側層に不要なフィルタが多数存在し、実質的に切断可能であることを確認した。
論文 参考訳(メタデータ) (2022-06-29T13:55:36Z) - End-to-End Sensitivity-Based Filter Pruning [49.61707925611295]
本稿では,各層間のフィルタの重要度を学習するための感度に基づくフィルタプルーニングアルゴリズム(SbF-Pruner)を提案する。
提案手法はフィルタ重みからスコアを学習し,各層のフィルタ間の相関を考慮できる。
論文 参考訳(メタデータ) (2022-04-15T10:21:05Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。