論文の概要: Iterative Layer-wise Distillation for Efficient Compression of Large Language Models
- arxiv url: http://arxiv.org/abs/2511.05085v1
- Date: Fri, 07 Nov 2025 09:00:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.717171
- Title: Iterative Layer-wise Distillation for Efficient Compression of Large Language Models
- Title(参考訳): 大規模言語モデルの効率的な圧縮のための反復層ワイズ蒸留法
- Authors: Grigory Kovalev, Mikhail Tikhomirov,
- Abstract要約: 本研究では, 大規模言語モデル (LLM) の蒸留法について検討し, 高い性能を保ったコンパクトモデルの開発を目標としている。
層重要度を反復的に評価する手法として,ShortGPT法に基づく改良手法が開発されている。
Qwen2.5-3Bモデルの実験では、レイヤーの数は36層から28層に減らされ、品質損失は9.7%、損失は24層に減らされた。
- 参考スコア(独自算出の注目度): 0.42970700836450487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work investigates distillation methods for large language models (LLMs) with the goal of developing compact models that preserve high performance. Several existing approaches are reviewed, with a discussion of their respective strengths and limitations. An improved method based on the ShortGPT approach has been developed, building upon the idea of incorporating iterative evaluation of layer importance. At each step, importance is assessed by measuring performance degradation when individual layers are removed, using a set of representative datasets. This process is combined with further training using a joint loss function based on KL divergence and mean squared error. Experiments on the Qwen2.5-3B model show that the number of layers can be reduced from 36 to 28 (resulting in a 2.47 billion parameter model) with only a 9.7% quality loss, and to 24 layers with an 18% loss. The findings suggest that the middle transformer layers contribute less to inference, underscoring the potential of the proposed method for creating efficient models. The results demonstrate the effectiveness of iterative distillation and fine-tuning, making the approach suitable for deployment in resource-limited settings.
- Abstract(参考訳): 本研究では, 大規模言語モデル (LLM) の蒸留法について検討し, 高い性能を保ったコンパクトモデルの開発を目標としている。
いくつかの既存のアプローチをレビューし、それぞれの長所と短所について議論する。
層重要度を反復的に評価する手法として,ShortGPT法に基づく改良手法が開発されている。
各ステップにおいて、個々のレイヤを削除する際のパフォーマンス劣化を測定することで、代表的データセットのセットを使用して重要度を評価する。
このプロセスは、KLの発散と平均二乗誤差に基づく結合損失関数を用いたさらなるトレーニングと組み合わせられる。
Qwen2.5-3Bモデルの実験では、レイヤーの数は36層から28層に減らされ、品質損失は9.7%、損失は24層に減らされた。
その結果, 中間変圧器層は推論に寄与しにくく, 効率的なモデル構築のための提案手法の可能性が強調された。
その結果, 反復蒸留と微調整の有効性が示され, 資源制限環境での展開に適したアプローチが得られた。
関連論文リスト
- MGD$^3$: Mode-Guided Dataset Distillation using Diffusion Models [50.2406741245418]
本稿では,事前学習した拡散モデルを利用したモード誘導拡散モデルを提案する。
提案手法は,異なるデータモードを識別するモード発見,クラス内多様性を高めるモード誘導,および合成試料中のアーティファクトを緩和するモード誘導という3段階のデータセットの多様性に対処する。
本手法は, 蒸留損失を伴う微調整拡散モデルの必要性を排除し, 計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2025-05-25T03:40:23Z) - Determining Layer-wise Sparsity for Large Language Models Through a Theoretical Perspective [55.90119819642064]
本稿では,大規模言語モデル (LLM) の階層的疎度率を理論的観点から決定する上での課題に対処する。
これは、スペーサー化プロセス全体での再構成エラーの累積効果を指す。
この問題を緩和するレイヤワイド・スパシティ・アロケーションに対する、シンプルで効果的なアプローチを導出します。
論文 参考訳(メタデータ) (2025-02-20T17:51:10Z) - LAPTOP-Diff: Layer Pruning and Normalized Distillation for Compressing Diffusion Models [8.679634923220174]
圧縮拡散モデル(LAPTOP-Diff)のための層プレーニングと正規化蒸留を提案する。
提案したLAPTOP-Diffを用いてSDXLとSDM-v1.5のU-Netを圧縮し,PickScoreの50%のプルーニング比で4.0%の低下を達成した。
論文 参考訳(メタデータ) (2024-04-17T06:32:42Z) - LaCo: Large Language Model Pruning via Layer Collapse [56.92068213969036]
トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。
モデル量子化、知識蒸留、モデルプルーニングといった既存の手法は、様々な問題によって制約されている。
後部モデル層が前層に崩壊する「textitLayer Collapse (LaCo)」と呼ばれる簡潔な層構造プルーナーを提案する。
論文 参考訳(メタデータ) (2024-02-17T04:16:30Z) - LayerCollapse: Adaptive compression of neural networks [13.567747247563108]
トランスフォーマーネットワークは、自然言語処理やコンピュータビジョンにおいて、先行技術より優れている。
モデルは数億のパラメータを含み、重要な計算資源を必要とする。
完全に連結された層の深さを減少させる新しい構造化プルーニング法であるLayerCollapseを提案する。
論文 参考訳(メタデータ) (2023-11-29T01:23:41Z) - ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language
Models [70.45441031021291]
LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界を包括的に理解することができる。
LVLMは計算/エネルギーの膨大なコストと炭素消費のためにしばしば問題となる。
本稿では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine LayerWise Pruning)を提案する。
論文 参考訳(メタデータ) (2023-10-04T17:34:00Z) - Layer-wise Linear Mode Connectivity [52.6945036534469]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識の直感的な方法である。
フェデレートラーニングにおいて最も顕著に用いられている。
私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文 参考訳(メタデータ) (2023-07-13T09:39:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。