論文の概要: Supernodes and Halos: Loss-Critical Hubs in LLM Feed-Forward Layers
- arxiv url: http://arxiv.org/abs/2604.23475v1
- Date: Sun, 26 Apr 2026 00:00:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.382512
- Title: Supernodes and Halos: Loss-Critical Hubs in LLM Feed-Forward Layers
- Title(参考訳): スーパーノードとハロ:LSMフィードフォワード層における損失臨界ハブ
- Authors: Audrey Cherilyn, Houman Safaai,
- Abstract要約: トランスファーフィードフォワードネットワーク(FFN)におけるチャネルレベルの重要性の組織化について検討する。
活性化段階の第2モーメントに基づくFisher-style Loss proxy (LP) を用いて、各層内の小さなチャネルに損失感度が集中していることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the organization of channel-level importance in transformer feed-forward networks (FFNs). Using a Fisher-style loss proxy (LP) based on activation-gradient second moments, we show that loss sensitivity is concentrated in a small set of channels within each layer. In Llama-3.1-8B, the top 1% of channels per layer accounts for a median of 58.7% of LP mass, with a range of 33.0% to 86.1%. We call these loss-critical channels supernodes. Although FFN layers also contain strong activation outliers, LP-defined supernodes overlap only weakly with activation-defined outliers and are not explained by activation power or weight norms alone. Around this core, we find a weaker but consistent halo structure: some non-supernode channels share the supernodes' write support and show stronger redundancy with the protected core. We use one-shot structured FFN pruning as a diagnostic test of this organization. At 50% FFN sparsity, baselines that prune many supernodes degrade sharply, whereas our SCAR variants explicitly protect the supernode core; the strongest variant, SCAR-Prot, reaches perplexity 54.8 compared with 989.2 for Wanda-channel. The LP-concentration pattern appears across Mistral-7B, Llama-2-7B, and Qwen2-7B, remains visible in targeted Llama-3.1-70B experiments, and increases during OLMo-2-7B pretraining. These results suggest that LLM FFNs develop a small learned core of loss-critical channels, and that preserving this core is important for reliable structured pruning.
- Abstract(参考訳): 本稿では,トランスファーフィードフォワードネットワーク(FFN)におけるチャネルレベルの重要性の組織化について検討する。
活性化段階の第2モーメントに基づくFisher-style Loss proxy (LP) を用いて、各層内の小さなチャネルに損失感度が集中していることを示す。
Llama-3.1-8Bでは、層ごとのチャネルの上位1%がLP質量の58.7%を占め、33.0%から86.1%の範囲である。
これらの損失クリティカルチャネルをスーパーノードと呼ぶ。
FFN層は強い活性化異常値も含むが、LP定義のスーパーノードは活性化異常値と弱い重なり合いしかなく、活性化パワーやウェイトノルムだけでは説明できない。
いくつかの超ノードチャネルはスーパーノードの書き込みサポートを共有し、保護されたコアとの強い冗長性を示す。
我々は,この組織の診断試験としてワンショット構造化FFNプルーニングを用いる。
50%のFFN間隔で、多くのスーパーノードが急激に劣化するのに対して、SCARの変種は明らかにスーパーノードコアを保護し、最も強い変種であるSCAR-ProtはWanda- Channelの989.2と比較して54.8に達する。
LP濃縮パターンは、Mistral-7B、Llama-2-7B、Qwen2-7Bにまたがって現れ、標的となるLlama-3.1-70B実験で見ることができる。
これらの結果から, LLM FFNは損失臨界チャネルの小さな学習コアを発達させ, このコアの保存は信頼性の高い構造化プルーニングに重要であることが示唆された。
関連論文リスト
- INTERLACE: Interleaved Layer Pruning and Efficient Adaptation in Large Vision-Language Models [10.262304700896197]
我々は,サンプル効率の微調整による性能を維持しながら,VLMの冗長層を創出する新しいフレームワークであるInterLACEを紹介した。
連続する3層構造を解析し, 局所的冗長性を同定し, 残りの2層を微調整し, 残りの層を微調整し, 第三層を凍結し, 微調整時に安定なアンカーとして機能させる。
1つのエポックのためにFineVisionデータセットのわずか1%のレイヤのみを微調整することで、Interlaceはネットワークの25%を落として88.9%のパフォーマンス維持を実現し、SOTAパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-11-24T20:24:22Z) - Cross-layer Attention Sharing for Pre-trained Large Language Models [87.23702516022435]
大規模言語モデル(LLM)における自己注意の軽量代用であるLISAを導入する。
その結果,LISAは高い応答品質を維持しつつ,全レイヤの53%~84%以内の冗長な注意計算を減らしていることがわかった。
LISAの実装により,LLaMA3-8B,LLaMA2-7B,LLaMA2-13Bに対して最大スループット19.5%,32.3%,40.1%のスループット向上を実現した。
論文 参考訳(メタデータ) (2024-08-04T00:38:34Z) - FinerCut: Finer-grained Interpretable Layer Pruning for Large Language Models [54.787308652357794]
FinerCutは変圧器ネットワークのための微細な層プルーニングの新たな形式である。
Llama3-8Bは25%の層を除去し,Llama3-70Bは95%の層を除去した。
論文 参考訳(メタデータ) (2024-05-28T14:21:15Z) - A pruning method based on the dissimilarity of angle among channels and
filters [13.878426750493784]
畳み込みネットワークを符号化し、異なる符号化ノードの類似性を得る。
我々は、類似性に基づいて、畳み込みカーネル間の接続能力を評価する。
角度の相似性(DACP)に基づくチャネルプルーニングベースを提案する。
論文 参考訳(メタデータ) (2022-10-29T05:47:57Z) - SkipNode: On Alleviating Performance Degradation for Deep Graph
Convolutional Networks [84.30721808557871]
我々は,深いGCNにおける性能劣化の根本的な原因を探るため,理論的および実験的解析を行う。
我々は,深いGCNの性能劣化を克服するために,シンプルで効果的なプラグイン・アンド・プレイモジュールであるSkipnodeを提案する。
論文 参考訳(メタデータ) (2021-12-22T02:18:31Z) - GDP: Stabilized Neural Network Pruning via Gates with Differentiable
Polarization [84.57695474130273]
ゲートベースまたは重要度に基づくプルーニング手法は、重要度が最小のチャネルを削除することを目的としている。
GDPは、各チャネルのオン・アンド・オフを制御するために、ベルやホイッスルのない畳み込み層の前に接続することができる。
CIFAR-10とImageNetデータセットを用いて行った実験は、提案したGDPが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2021-09-06T03:17:10Z) - Parametric Flatten-T Swish: An Adaptive Non-linear Activation Function
For Deep Learning [0.0]
Rectified Linear Unit (ReLU)は、ディープラーニングコミュニティでもっとも人気のあるアクティベーション機能である。
本稿では,ReLUの代替としてParametric Flatten-T Swish(PFTS)を紹介する。
PFTSはトレーニング中に高い非線形近似能力を示し、ネットワークの予測性能を改善した。
論文 参考訳(メタデータ) (2020-11-06T01:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。