論文の概要: FlattenGPT: Depth Compression for Transformer with Layer Flattening
- arxiv url: http://arxiv.org/abs/2602.08858v1
- Date: Mon, 09 Feb 2026 16:22:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.354399
- Title: FlattenGPT: Depth Compression for Transformer with Layer Flattening
- Title(参考訳): FlattenGPT:レイヤフラット化による変圧器の深さ圧縮
- Authors: Ruihan Xu, Qingpei Guo, Yao Zhu, Xiangyang Ji, Ming Yang, Shiliang Zhang,
- Abstract要約: textbfFlattenGPTは、深さ方向の冗長性を検出し、減少させる新しい方法である。
実験によると、FlattenGPTはモデル効率を十分なトレードオフで向上させる。
- 参考スコア(独自算出の注目度): 89.7587433008809
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent works have indicated redundancy across transformer blocks, prompting the research of depth compression to prune less crucial blocks. However, current ways of entire-block pruning suffer from risks of discarding meaningful cues learned in those blocks, leading to substantial performance degradation. As another line of model compression, channel pruning can better preserve performance, while it cannot reduce model depth and is challenged by inconsistent pruning ratios for individual layers. To pursue better model compression and acceleration, this paper proposes \textbf{FlattenGPT}, a novel way to detect and reduce depth-wise redundancies. By flatting two adjacent blocks into one, it compresses the network depth, meanwhile enables more effective parameter redundancy detection and removal. FlattenGPT allows to preserve the knowledge learned in all blocks, and remains consistent with the original transformer architecture. Extensive experiments demonstrate that FlattenGPT enhances model efficiency with a decent trade-off to performance. It outperforms existing pruning methods in both zero-shot accuracies and WikiText-2 perplexity across various model types and parameter sizes. On LLaMA-2/3 and Qwen-1.5 models, FlattenGPT retains 90-96\% of zero-shot performance with a compression ratio of 20\%. It also outperforms other pruning methods in accelerating LLM inference, making it promising for enhancing the efficiency of transformers.
- Abstract(参考訳): 近年の研究では、変圧器ブロック間の冗長性が示され、深度圧縮の研究がより重要でないブロックを産み出すきっかけとなった。
しかし、現在のブロック全体プルーニングの方法は、これらのブロックで学んだ意味のあるキューを破棄するリスクに悩まされ、パフォーマンスが大幅に低下する。
モデル圧縮の別の行として、チャネルプルーニングは、モデル深さを減らすことができず、個々の層に対する一貫性のないプルーニング比によって挑戦される。
本稿では, モデル圧縮と加速度の向上を図るために, 深度的冗長性の検出と低減を行う新しい方法である「textbf{FlattenGPT}」を提案する。
隣接する2つのブロックを1つに平らにすることで、ネットワーク深さを圧縮し、パラメータの冗長性の検出と削除をより効果的に行うことができる。
FlattenGPTはすべてのブロックで学んだ知識を保存でき、元のトランスフォーマーアーキテクチャと整合性を維持している。
広範な実験により、FlattenGPTはモデル効率を十分なトレードオフで向上させることを示した。
これは、ゼロショット精度とWikiText-2パープレキシティの両方において、様々なモデルタイプとパラメータサイズで既存のプルーニング手法より優れています。
LLaMA-2/3 および Qwen-1.5 モデルでは、FlattenGPT はゼロショット性能の 90-96 % を保持し、圧縮比は 20 % である。
また、LSM推論の高速化において他のプルーニング法よりも優れており、トランスの効率を高めることを約束している。
関連論文リスト
- GRASP: Replace Redundant Layers with Adaptive Singular Parameters for Efficient Model Compression [26.51079570548107]
本稿では,新しい圧縮フレームワークGRASP(Gradient-based Retention of Adaptive Singular Parameters)を提案する。
冗長なレイヤを最小限のパラメータセットで置き換えることによって、GRASPは、最小限のオーバーヘッドで強力なパフォーマンスを維持しながら、効率的な圧縮を実現する。
論文 参考訳(メタデータ) (2024-12-31T08:22:21Z) - TinyFusion: Diffusion Transformers Learned Shallow [52.96232442322824]
拡散変換器は画像生成において顕著な機能を示すが、しばしば過度なパラメータ化を伴う。
本稿では,拡散変圧器の冗長層をエンド・ツー・エンド・ラーニングにより除去する深度切削法TinyFusionを提案する。
DiT-XLの実験では、TinyFusionはトレーニング前のコストの7%以下で浅い拡散変圧器を製造でき、FIDスコアが2.86で2$times$のスピードアップを達成した。
論文 参考訳(メタデータ) (2024-12-02T07:05:39Z) - FuseGPT: Learnable Layers Fusion of Generative Pre-trained Transformers [30.88764351013966]
GPT(Generative Pre-trained Transformer)は、様々な領域で顕著な性能を示す。
近年の研究では、トランスブロック内の冗長性を観察し、重要でないブロックの構造化プルーニングによる圧縮法を開発した。
FuseGPTは,プルーンドトランスフォーマーブロックをリサイクルし,モデルの性能を回復する新しい手法である。
論文 参考訳(メタデータ) (2024-11-21T09:49:28Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。
Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。
我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文 参考訳(メタデータ) (2024-05-23T15:34:53Z) - BESA: Pruning Large Language Models with Blockwise Parameter-Efficient Sparsity Allocation [54.28841287750586]
大規模言語モデル(LLM)は、テキスト要約、テキスト質問応答など、様々なタスクにおいて優れたパフォーマンスを示してきた。
SparseGPTやWandaといった既存のソリューションは、重み付けによってこの問題を緩和しようと試みている。
本稿では,ブロックワイド再構成損失を適用して,ブロックワイドパラメータ効率の空間割当(BESA)と呼ばれる新しいLCMプルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-02-18T12:44:15Z) - DiffRate : Differentiable Compression Rate for Efficient Vision
Transformers [98.33906104846386]
Token圧縮は、プルーニング(ドロップ)やトークンのマージによって、大規模な視覚変換器(ViTなど)を高速化することを目的としている。
DiffRate(ディフレート)は、先行技術にはないいくつかの魅力的な特性を持つ新しいトークン圧縮手法である。
論文 参考訳(メタデータ) (2023-05-29T10:15:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。