論文の概要: Demystifying When Pruning Works via Representation Hierarchies
- arxiv url: http://arxiv.org/abs/2603.24652v1
- Date: Wed, 25 Mar 2026 17:55:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:47.915758
- Title: Demystifying When Pruning Works via Representation Hierarchies
- Title(参考訳): 表現階層による作業実行時のデミスティフィケーション
- Authors: Shwai He, Guoheng Sun, Haichao Zhang, Yun Fu, Ang Li,
- Abstract要約: ネットワークプルーニングを表現階層の観点から解析する。
埋め込み空間とロジット空間の表現は、プルーニングによって引き起こされる摂動に対して大きく頑健である。
本分析は,タスクを横断するプルーニングの効果を解析し,その応用のための実践的なガイダンスを提供する。
- 参考スコア(独自算出の注目度): 39.1363221691962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Network pruning, which removes less important parameters or architectures, is often expected to improve efficiency while preserving performance. However, this expectation does not consistently hold across language tasks: pruned models can perform well on non-generative tasks but frequently fail in generative settings. To understand this discrepancy, we analyze network pruning from a representation-hierarchy perspective, decomposing the internal computation of language models into three sequential spaces: embedding (hidden representations), logit (pre-softmax outputs), and probability (post-softmax distributions). We find that representations in the embedding and logit spaces are largely robust to pruning-induced perturbations. However, the nonlinear transformation from logits to probabilities amplifies these deviations, which accumulate across time steps and lead to substantial degradation during generation. In contrast, the stability of the categorical-token probability subspace, together with the robustness of the embedding space, supports the effectiveness of pruning for non-generative tasks such as retrieval and multiple-choice selection. Our analysis disentangles the effects of pruning across tasks and provides practical guidance for its application. Code is available at https://github.com/CASE-Lab-UMD/Pruning-on-Representations
- Abstract(参考訳): 重要でないパラメータやアーキテクチャを取り除くネットワークプルーニングは、性能を維持しながら効率を向上させることがしばしば期待されている。
しかし、この期待は言語タスクをまたいで一貫して保たない: 刈り取られたモデルは非生成的なタスクでうまく機能するが、しばしば生成的な設定で失敗する。
この違いを理解するために、表現階層の観点からネットワークプルーニングを分析し、言語モデルの内部計算を埋め込み(隠れ表現)、ロジット(プレソフトマックス出力)、確率(ポストソフトマックス分布)の3つの逐次空間に分解する。
埋め込み空間とロジット空間の表現は、プルーニングによって引き起こされる摂動に対して大きく頑健である。
しかし、ロジットから確率への非線形変換は、これらの偏差を増幅し、時間ステップにまたがって蓄積し、生成時にかなりの劣化を引き起こす。
対照的に、カテゴリ-トークン確率部分空間の安定性は、埋め込み空間の堅牢性とともに、検索や複数選択のような非生成的タスクに対するプルーニングの有効性を支持している。
本分析は,タスクを横断するプルーニングの効果を解析し,その応用のための実践的なガイダンスを提供する。
コードはhttps://github.com/CASE-Lab-UMD/Pruning-on-Representationsで公開されている。
関連論文リスト
- Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - Zonkey: A Hierarchical Diffusion Language Model with Differentiable Tokenization and Probabilistic Attention [0.0]
Zonkeyは階層的な拡散モデルであり、生文字から文書レベルの表現まで、完全にトレーニング可能なパイプラインを通じて制限に対処する。
コアとなるのは、確率的開始順序(BOS)決定を学習する、差別化可能なトークンである。
Zonkeyは、ノイズからコヒーレントで可変長のテキストを生成し、創発的な階層を示す。
論文 参考訳(メタデータ) (2026-01-29T14:17:37Z) - Improving Random Forests by Smoothing [13.20678906714433]
カーネルベースの平滑化機構を学習されたランダムフォレストや任意の定数予測関数に適用する。
結果として得られたモデルは、基礎となるランダム森林の予測性能を一貫して改善する。
論文 参考訳(メタデータ) (2025-05-11T05:39:08Z) - Variational Autoencoding of Dental Point Clouds [10.137124603866036]
本稿では,歯のメッシュと点雲の広範なコレクションであるFDI 16データセットを紹介する。
本稿では,変分FoldingNet(VF-Net)という,点群に対する完全確率的変分オートエンコーダを提案する。
論文 参考訳(メタデータ) (2023-07-20T14:18:44Z) - Dynamic Context Pruning for Efficient and Interpretable Autoregressive Transformers [29.319666323947708]
本稿では,モデル表現性を保ちながら文脈情報を動的に生成する手法を提案する。
本手法では,文脈からどの非形式的トークンをドロップできるかを学習可能なメカニズムを用いて決定する。
我々の参照実装は、推論スループットの増大とメモリの節約を最大2ドルまで達成します。
論文 参考訳(メタデータ) (2023-05-25T07:39:41Z) - Posterior Collapse and Latent Variable Non-identifiability [54.842098835445]
柔軟性を犠牲にすることなく識別性を強制する深層生成モデルである,潜時同定可能な変分オートエンコーダのクラスを提案する。
合成および実データ全体にわたって、潜在識別可能な変分オートエンコーダは、後方崩壊を緩和し、データの有意義な表現を提供する既存の方法より優れている。
論文 参考訳(メタデータ) (2023-01-02T06:16:56Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Efficient Marginalization of Discrete and Structured Latent Variables
via Sparsity [26.518803984578867]
離散的な(分類的または構造化された)潜在変数を持つニューラルネットワークモデルを訓練することは、計算的に困難である。
典型的には、真の限界のサンプリングに基づく近似に頼っている。
そこで本研究では,これらの推定器を高精度かつ効率的なマージン化によって置き換える新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-07-03T19:36:35Z) - Spatially Adaptive Inference with Stochastic Feature Sampling and
Interpolation [72.40827239394565]
スパースサンプリングされた場所のみの機能を計算することを提案する。
次に、効率的な手順で特徴写像を密に再構築する。
提案したネットワークは、様々なコンピュータビジョンタスクの精度を維持しながら、かなりの計算を省くために実験的に示されている。
論文 参考訳(メタデータ) (2020-03-19T15:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。