論文の概要: Rethinking Layer Removal: A Hybrid Pruning Framework Combining Layer Removal and Singular Value Selection for Efficient LLM Compression
- arxiv url: http://arxiv.org/abs/2501.00339v2
- Date: Tue, 25 Feb 2025 11:53:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:19:43.975278
- Title: Rethinking Layer Removal: A Hybrid Pruning Framework Combining Layer Removal and Singular Value Selection for Efficient LLM Compression
- Title(参考訳): 層除去を再考する: 効率的なLLM圧縮のための層除去と特異値選択を組み合わせたハイブリッド・プルーニング・フレームワーク
- Authors: Kainan Liu, Yong Zhang, Ning Cheng, Zhitao Li, Shaojun Wang, Jing Xiao,
- Abstract要約: 層除去は、冗長性を低減し、推論効率を向上させることで、大きな言語モデル(LLM)を圧縮する有効な手法である。
これらの効果を緩和するために表現クリティカルな特異値を保存するGRASPを提案する。
実験の結果、GRASPは既存の圧縮メソッドよりも複雑度やダウンストリームタスクのパフォーマンスが一貫して優れています。
- 参考スコア(独自算出の注目度): 26.51079570548107
- License:
- Abstract: Layer removal is an effective technique for compressing large language models (LLMs) by reducing redundancy and improving inference efficiency. However, indiscriminate pruning disrupts representation stability, leading to performance degradation. We propose GRASP (Gradient-based Retention of Adaptive Singular Parameters), which preserves representation-critical singular values to mitigate these effects. Unlike direct layer removal, GRASP leverages gradient-based attribution on a syntax- and semantics-rich dataset to guide the selection of representation-critical singular values. By selectively applying singular value decomposition (SVD) to affected layers, GRASP achieves efficient compression while maintaining representation stability with minimal overhead. Experiments across multiple LLMs show that GRASP consistently outperforms existing compression methods in perplexity and downstream task performance.
- Abstract(参考訳): 層除去は、冗長性を低減し、推論効率を向上させることで、大きな言語モデル(LLM)を圧縮する有効な手法である。
しかし、無差別プルーニングは表現安定性を阻害し、性能劣化を引き起こす。
本稿では,これらの効果を緩和するために,表現クリティカルな特異値を保存するGRASPを提案する。
直接層除去とは異なり、GRASPは構文とセマンティクスに富んだデータセットに勾配に基づく属性を活用し、表現クリティカルな特異値の選択を導く。
影響を受けた層に特異値分解(SVD)を選択的に適用することにより、GRASPは最小限のオーバーヘッドで表現安定性を維持しながら効率的な圧縮を実現する。
複数のLLMをまたいだ実験では、GRASPが既存の圧縮メソッドよりも複雑度やダウンストリームタスクのパフォーマンスが一貫して優れていることが示されている。
関連論文リスト
- Contextual Compression Encoding for Large Language Models: A Novel Framework for Multi-Layered Parameter Space Pruning [0.0]
文脈圧縮。
(CCE)はパラメータ分布を動的に再構成する多段符号化機構を導入した。
CCEは言語表現力とコヒーレンスを維持し、テキスト生成や分類タスクの精度を維持した。
論文 参考訳(メタデータ) (2025-02-12T11:44:19Z) - AdaSVD: Adaptive Singular Value Decomposition for Large Language Models [84.60646883395454]
Singular Value Decomposition (SVD) は,大規模言語モデル(LLM)の有望な圧縮手法として登場した。
既存のSVDベースの手法は、SVDトランケーションによって引き起こされるエラーを効果的に軽減するために苦労することが多い。
適応SVDに基づくLLM圧縮手法であるAdaSVDを提案する。
論文 参考訳(メタデータ) (2025-02-03T14:34:37Z) - LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。
LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-22T16:26:05Z) - Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - Q-VLM: Post-training Quantization for Large Vision-Language Models [73.19871905102545]
本稿では,大規模視覚言語モデル(LVLM)の学習後量子化フレームワークを提案する。
視覚言語モデル全体の離散化誤差に大きな影響を及ぼす層間依存関係を抽出し、この依存関係を最適な量子化戦略に組み込む。
実験の結果,提案手法はメモリを2.78倍圧縮し,出力速度を約13B LLaVAモデルで1.44倍向上させることができた。
論文 参考訳(メタデータ) (2024-10-10T17:02:48Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Generalized Nested Latent Variable Models for Lossy Coding applied to Wind Turbine Scenarios [14.48369551534582]
学習に基づくアプローチは、圧縮率と再構成された画質の妥協を最小化する。
成功したテクニックは、2レベルネストされた潜伏変数モデル内で機能するディープハイパープライアの導入である。
本稿では,マルコフ連鎖構造を持つ一般化Lレベルネスト生成モデルを設計することによって,この概念を拡張した。
論文 参考訳(メタデータ) (2024-06-10T11:00:26Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - STN: Scalable Tensorizing Networks via Structure-Aware Training and
Adaptive Compression [10.067082377396586]
本稿では,モデルサイズと分解構造を適応的に調整するスケーラビリティネットワーク(STN)を提案する。
STNは任意のネットワークアーキテクチャと互換性があり、他のテンソル化バージョンよりも高い圧縮性能と柔軟性を実現する。
論文 参考訳(メタデータ) (2022-05-30T15:50:48Z) - Neural TMDlayer: Modeling Instantaneous flow of features via SDE
Generators [37.92379202320938]
本稿では, 微分方程式(SDE)に基づくアイデアが, コンピュータビジョンの一連の問題に対して, 既存のアルゴリズムに新たな修正をもたらすかを検討する。
ショットラーニング,ポイントクラウドトランスフォーマー,深部変分セグメンテーションなど,多数のビジョンタスクについて有望な実験を行った。
論文 参考訳(メタデータ) (2021-08-19T19:54:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。