論文の概要: SimDiff: Depth Pruning via Similarity and Difference
- arxiv url: http://arxiv.org/abs/2604.19520v1
- Date: Tue, 21 Apr 2026 14:43:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.816984
- Title: SimDiff: Depth Pruning via Similarity and Difference
- Title(参考訳): SimDiff: 類似点と相違点による深さ決定
- Authors: Yuli Chen, Shuhao Zhang, Fanshen Meng, Bo Cheng, Jiale Han, Qiang Tong, Xiulei Liu,
- Abstract要約: 我々は2つの視点からレイヤーを共同評価する新しいレイヤー重要基準であるSimDiffを提案する。
SimDiffは様々なプルーニング比で最先端のベースラインを大幅に上回っている。
また, 微調整を最小限にすることで, プルーニングモデルを効果的に回収できることを示す。
- 参考スコア(独自算出の注目度): 8.831017385743104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Depth pruning improves the deployment efficiency of large language models (LLMs) by identifying and removing redundant layers. A widely accepted standard for this identification process is to measure the similarity between layers using cosine distance. However, we find that methods relying solely on this one-dimensional heuristic can exhibit unpredictable performance and even catastrophic collapse across different architectures. To address this issue, we propose SimDiff, a novel layer importance criterion that jointly evaluates layers from two orthogonal perspectives: representational similarity and transformation difference. The difference is quantified using two distinct metrics: MSSD, which is sensitive to outliers and identifies layers that make decisive corrections, and MASD, which robustly measures a layer's average contribution. Extensive experiments on multiple models ranging from 0.5B to 13B parameters demonstrate that SimDiff significantly outperforms state-of-the-art baselines across various pruning ratios. Notably, our method retains over 91% of LLaMA2-7B's performance at a 25% pruning ratio and achieves up to a 1.49x inference speedup when pruning 12 layers on LLaMA3.1-8B. We also show that pruned models can be effectively recovered with minimal fine-tuning.
- Abstract(参考訳): depth pruningは、冗長なレイヤを特定して削除することで、大きな言語モデル(LLM)のデプロイメント効率を改善する。
この同定プロセスの広く受け入れられている標準は、コサイン距離を用いて層間の類似度を測定することである。
しかし、この1次元ヒューリスティックにのみ依存する手法は予測不可能な性能を示し、異なるアーキテクチャで破滅的な崩壊を招きかねない。
この問題に対処するために,2つの直交的な視点,つまり表現的類似性と変換の相違を共同で評価する,新しい層重要度基準であるSimDiffを提案する。
差分は2つの異なるメトリクスを使って定量化される: MSSDは、外れ値に敏感で決定的な補正を行う層を識別し、MASDは、層の平均貢献度をしっかりと測定する。
0.5Bから13Bのパラメータを含む複数のモデルに対する大規模な実験により、SimDiffは様々なプルーニング比で最先端のベースラインを著しく上回ることを示した。
特に, LLaMA3.1-8B上で12層を刈り取ると, LLaMA2-7Bの性能を25%プルーニング比で91%以上保持し, 最大1.49倍の高速化を実現している。
また, 微調整を最小限にすることで, プルーニングモデルを効果的に回収できることを示す。
関連論文リスト
- MS-ISSM: Objective Quality Assessment of Point Clouds Using Multi-scale Implicit Structural Similarity [65.85858856481131]
点雲の非構造的で不規則な性質は、客観的品質評価(PCQA)に重大な課題をもたらす
マルチスケールインシシシット構造類似度測定(MS-ISSM)を提案する。
論文 参考訳(メタデータ) (2026-01-03T14:58:52Z) - Towards Extreme Pruning of LLMs with Plug-and-Play Mixed Sparsity [32.668409666483626]
既存のプルーニング手法は主に、プルーニングをガイドするネットワークコンポーネントの重要性を測定するためにメトリクスを設計することに焦点を当てている。
本稿では,FIM(Fiher Information Matrix)のトレースに基づく効率的な手法を提案する。
そこで本研究では,異なる層に対する最適スパシティレベルを決定するために,プルーニング指向の進化的アルゴリズム(EA)を用いたMixed Sparsity Pruning (MSP)を提案する。
論文 参考訳(メタデータ) (2025-03-14T08:05:49Z) - A Sliding Layer Merging Method for Efficient Depth-Wise Pruning in LLMs [13.000188564679998]
本稿では,再現カーネルHilbert空間内の異なるレイヤの出力の相関関係を解析することにより,大規模言語モデルにおけるPatch-like'の特徴関係を明らかにする。
本研究では, 連続層を上から下へ動的に選択・融合するスライディング層マージ法について, 予め定義された類似度閾値に従って提案する。
提案手法は,ゼロショット推論性能と再学習後の回復品質の両方において,既存のプルーニング技術より優れる。
論文 参考訳(メタデータ) (2025-02-26T14:15:24Z) - Determining Layer-wise Sparsity for Large Language Models Through a Theoretical Perspective [55.90119819642064]
本稿では,大規模言語モデル (LLM) の階層的疎度率を理論的観点から決定する上での課題に対処する。
これは、スペーサー化プロセス全体での再構成エラーの累積効果を指す。
この問題を緩和するレイヤワイド・スパシティ・アロケーションに対する、シンプルで効果的なアプローチを導出します。
論文 参考訳(メタデータ) (2025-02-20T17:51:10Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - Layer-wise Linear Mode Connectivity [52.6945036534469]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識の直感的な方法である。
フェデレートラーニングにおいて最も顕著に用いられている。
私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文 参考訳(メタデータ) (2023-07-13T09:39:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。