論文の概要: On the Limits of Layer Pruning for Generative Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2602.01997v1
- Date: Mon, 02 Feb 2026 11:57:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.120882
- Title: On the Limits of Layer Pruning for Generative Reasoning in LLMs
- Title(参考訳): LLMにおける生成推論のための層プレーニングの限界について
- Authors: Safal Shrestha, Anubhav Shrestha, Aadim Nepal, Minwu Kim, Keith Ross,
- Abstract要約: レイヤープルーニングは、大きな言語モデル(LLM)を圧縮でき、微調整をほとんどあるいは全く行わずに分類ベンチマークで強い性能を維持することができる。
多段階推論を必要とするタスクは,特に深度低減に敏感であることがわかった。
現実的なポストトレーニング制約の下では、教師付き微調整に基づく単純な緩和戦略を評価する。
- 参考スコア(独自算出の注目度): 0.5437050212139086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works have shown that layer pruning can compress large language models (LLMs) while retaining strong performance on classification benchmarks with little or no finetuning. However, existing pruning techniques often suffer severe degradation on generative reasoning tasks. Through a systematic study across multiple model families, we find that tasks requiring multi-step reasoning are particularly sensitive to depth reduction. Beyond surface-level text degeneration, we observe degradation of critical algorithmic capabilities, including arithmetic computation for mathematical reasoning and balanced parenthesis generation for code synthesis. Under realistic post-training constraints, without access to pretraining-scale data or compute, we evaluate a simple mitigation strategy based on supervised finetuning with Self-Generated Responses. This approach achieves strong recovery on classification tasks, retaining up to 90\% of baseline performance, and yields substantial gains of up to 20--30 percentage points on generative benchmarks compared to prior post-pruning techniques. Crucially, despite these gains, recovery for generative reasoning remains fundamentally limited relative to classification tasks and is viable primarily at lower pruning ratios. Overall, we characterize the practical limits of layer pruning for generative reasoning and provide guidance on when depth reduction can be applied effectively under constrained post-training regimes.
- Abstract(参考訳): 最近の研究によると、レイヤープルーニングは大きな言語モデル(LLM)を圧縮できる一方で、ほとんどあるいは全く微調整せずに分類ベンチマークの性能を保っている。
しかし、既存の刈り取り技術は、しばしば生成的推論タスクで深刻な劣化を被る。
複数のモデルファミリーにまたがる系統的な研究により,多段階推論を必要とするタスクは,特に深度低減に敏感であることが判明した。
表層テキストのデジェネレーション以外にも、数理推論のための算術演算やコード合成のための平衡括弧生成など、重要なアルゴリズム能力の劣化を観察する。
訓練後の現実的な制約の下では、事前訓練スケールのデータや計算にアクセスせずに、自己生成応答を用いた教師付き微調整に基づく単純な緩和戦略を評価する。
提案手法は, 分類タスクの強い回復を実現し, ベースライン性能の最大90%を保ち, 生成ベンチマークの最大20~30ポイントの実質的なゲインを得る。
これらの増加にもかかわらず、生成的推論の回復は、分類タスクに対して基本的に制限されており、主に低い刈り取り比で実行可能である。
全体として、生成的推論のためのレイヤプルーニングの実践的限界を特徴付けるとともに、制約付き後学習体制下での深度低減を効果的に適用する方法についてのガイダンスを提供する。
関連論文リスト
- Provable Benefit of Curriculum in Transformer Tree-Reasoning Post-Training [76.12556589212666]
学習後のカリキュラムは指数関数的複雑性のボトルネックを回避していることを示す。
結果のみの報酬信号の下では、強化学習の微調整は、サンプルの複雑さを高い精度で達成する。
カリキュラムを意識したクエリにより、報奨託書の呼び出しとサンプリングコストの両方を指数関数的に削減するテストタイムスケーリングの保証を確立する。
論文 参考訳(メタデータ) (2025-11-10T18:29:54Z) - Nested-ReFT: Efficient Reinforcement Learning for Large Language Model Fine-Tuning via Off-Policy Rollouts [25.205293698698867]
我々はNested-ReFTを導入し、ターゲットモデルのサブセットがトレーニング中に非政治的な完了を生成する行動モデルとして機能する。
我々の理論的分析は、Nested-ReFTが制御された分散を伴う非バイアス勾配推定値を得ることを示している。
我々の経験的分析は、複数の数学推論ベンチマークとモデルサイズでトークン/秒として測定された計算効率の改善を実証している。
論文 参考訳(メタデータ) (2025-08-13T18:37:46Z) - The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - SLCA++: Unleash the Power of Sequential Fine-tuning for Continual Learning with Pre-training [68.7896349660824]
本稿では,Seq FTのレンズからの進行オーバーフィッティング問題を詳細に解析する。
過度に高速な表現学習と偏りのある分類層がこの問題を構成することを考慮し、先進的なSlow Learner with Alignment(S++)フレームワークを導入する。
提案手法は,バックボーンパラメータの学習率を選択的に減少させるスローラーナーと,ポストホック方式で不規則な分類層を整列させるアライメントを含む。
論文 参考訳(メタデータ) (2024-08-15T17:50:07Z) - Effective Layer Pruning Through Similarity Metric Perspective [0.0]
ディープニューラルネットワークは、認知タスクを解決する機械学習において、主要なパラダイムとなっている。
これらのモデルから構造を抽出することは、ネットワークの複雑さを減らすための簡単なアプローチである。
層プルーニングは、しばしば高い圧縮速度でネットワーク予測能力(すなわち精度)を損なう。
この研究は、プルーニング手法によって追求されるすべての基礎特性を満たす効果的なレイヤ・プルーニング戦略を導入する。
論文 参考訳(メタデータ) (2024-05-27T11:54:51Z) - The Unreasonable Ineffectiveness of the Deeper Layers [5.984361440126354]
一般的な質問応答ベンチマークでは, あるレイヤを削除してもモデル性能には影響しないことがわかった。
驚くべきことに、この方法では、少数の層が取り除かれるまで、パフォーマンスの最小限の劣化が見られます。
科学的見地からすると、これらのLCMの堅牢性からレイヤの削除は、現在の事前学習手法がネットワークの深い層におけるパラメータを適切に活用していない、あるいは浅い層が知識を保存する上で重要な役割を担っていることを示唆している。
論文 参考訳(メタデータ) (2024-03-26T17:20:04Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Fast Hierarchical Learning for Few-Shot Object Detection [57.024072600597464]
転送学習アプローチは、最近、数ショット検出タスクで有望な結果を得た。
これらのアプローチは、ベース検出器の微調整による破滅的な忘れ込みの問題に悩まされる。
この作業における上記の問題に対処する。
論文 参考訳(メタデータ) (2022-10-10T20:31:19Z) - Back to Basics: Efficient Network Compression via IMP [22.586474627159287]
イテレーティブ・マグニチュード・プルーニング(IMP)は、ネットワーク・プルーニングにおける最も確立されたアプローチの1つである。
IMPは、トレーニングフェーズにスパーシフィケーションを組み込まないことで、最適以下の状態に達するとしばしば主張される。
再学習のためのSLRを用いたIMPは、最先端のプルーニング訓練手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-11-01T11:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。