論文の概要: Ghosted Layers: Unconstrained Activation Alignment for Recovering Layer-Pruned LLMs
- arxiv url: http://arxiv.org/abs/2605.15491v1
- Date: Fri, 15 May 2026 00:15:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.134562
- Title: Ghosted Layers: Unconstrained Activation Alignment for Recovering Layer-Pruned LLMs
- Title(参考訳): Ghosted Layers:Layer-Pruned LLMの回復のための非拘束活性化アライメント
- Authors: Vincent-Daniel Yun, Junhyuk Jo, Sai Praneeth Karimireddy, Sunwoo Lee,
- Abstract要約: レイヤープルーニングは、Transformerデコーダブロックを大きな言語モデルから削除するが、次の生存層が受信した隠蔽状態と、それが処理するように訓練された分散とのミスマッチを導入する。
我々は,境界活性化アライメント問題を解くことで,この問題に対処するトレーニングフリーリカバリモジュールであるGhosted Layersを提案する。
- 参考スコア(独自算出の注目度): 9.445413039714284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Layer pruning removes entire Transformer decoder blocks from large language models, but introduces a mismatch between the hidden state received by the next surviving layer and the distribution it was trained to process, leading to significant performance degradation. We propose Ghosted Layers, a training-free recovery module that addresses this issue by solving a boundary activation alignment problem. Our method derives a closed-form optimal linear operator from a small calibration set to reconstruct the activation discrepancy introduced by the pruned layers. We show that this solution corresponds to the unconstrained optimum of the alignment objective, whereas existing methods are restricted to constrained solutions over limited operator subspaces. Experiments across multiple LLM backbones and pruning strategies demonstrate that our method consistently improves accuracy and perplexity over prior training-free baselines, while preserving the efficiency gains of layer pruning.
- Abstract(参考訳): レイヤープルーニングは、Transformerデコーダブロック全体を大きな言語モデルから削除するが、次の生存層によって受信された隠蔽状態と、それが処理するように訓練された分散とのミスマッチを導入し、パフォーマンスが大幅に低下する。
我々は,境界活性化アライメント問題を解くことで,この問題に対処するトレーニングフリーリカバリモジュールであるGhosted Layersを提案する。
本手法は, プルーニング層が導入したアクティベーション不一致を再現する小さなキャリブレーションセットから, 閉形式最適線形演算子を導出する。
既存の手法は有限作用素部分空間上の制約付き解に制限されているのに対し、この解はアライメント対象の制約のない最適値に対応することを示す。
複数のLCMバックボーンとプルーニング戦略を用いた実験により,従来のトレーニングのないベースラインよりも精度とパープレキシティを常に向上し,レイヤープルーニングの効率性向上を保った。
関連論文リスト
- Enhancing Gradient Inversion Attacks in Federated Learning via Hierarchical Feature Optimization [56.95448807869383]
フェデレートラーニング(FL)は、プライバシを保存する分散機械学習の魅力的なパラダイムとして登場した。
近年の研究では、FLシステムで交換される勾配もプライバシー漏洩に弱いことが報告されている。
我々は textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD) を提案する。
論文 参考訳(メタデータ) (2026-04-01T14:32:15Z) - AGZO: Activation-Guided Zeroth-Order Optimization for LLM Fine-Tuning [8.698253005940503]
アクティベーション誘導ゼロ階最適化(AGZO)を提案する。
従来の方法とは異なり、AGZOは前方通過中にフライ上のコンパクトな活性化インフォームド部分空間を抽出し、この低ランク部分空間に摂動を制限する。
AGZOは、最先端のZOベースラインを一貫して上回り、一階ファインチューニングによるパフォーマンスギャップを著しく狭めている。
論文 参考訳(メタデータ) (2026-01-24T02:28:15Z) - Distilling to Hybrid Attention Models via KL-Guided Layer Selection [66.06591032073744]
本稿では,テキストデータに対する少量のトレーニングから得られた重要度スコアを用いた,簡易かつ効率的な層選択法について述べる。
この手法は, 固定比に基づいて線形注意を均一に解き出す手法を含む, 従来の層選択手法よりも有効であることがわかった。
論文 参考訳(メタデータ) (2025-12-23T18:12:22Z) - Don't Be Greedy, Just Relax! Pruning LLMs via Frank-Wolfe [61.68406997155879]
State-of-the-art Large Language Model (LLM) プルーニング手法は階層的に動作し、階層ごとのプルーニングエラーを最小限に抑え、完全な再トレーニングを回避する。
既存の手法は、刈り上げ対象の重量相互作用を無視する欲求凸に依存する。
提案手法は, 層ごとのプルーニング誤差を大幅に低減し, 最先端のGPTアーキテクチャにおいて高いベースラインを達成し, メモリ効率を保っている。
論文 参考訳(メタデータ) (2025-10-15T16:13:44Z) - Anti-Collapse Loss for Deep Metric Learning Based on Coding Rate Metric [99.19559537966538]
DMLは、分類、クラスタリング、検索といった下流タスクのための識別可能な高次元埋め込み空間を学習することを目的としている。
埋め込み空間の構造を維持し,特徴の崩壊を避けるために,反崩壊損失と呼ばれる新しい損失関数を提案する。
ベンチマークデータセットの総合実験により,提案手法が既存の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-07-03T13:44:20Z) - Streamlining Redundant Layers to Compress Large Language Models [21.27944103424621]
本稿では,LLM-Streamlineについて紹介する。
異なる層が隠れた状態に様々な影響を与えるという観察に基づいており、重要でない層を識別することができる。
実験により, LLM-Streamlineは, 性能および訓練効率の両面において, 先行および同時のプルーニング法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-28T04:12:13Z) - Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。
アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。
提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文 参考訳(メタデータ) (2023-12-25T18:51:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。