論文の概要: Reasoning-preserved Efficient Distillation of Large Language Models via Activation-aware Initialization
- arxiv url: http://arxiv.org/abs/2605.29327v1
- Date: Thu, 28 May 2026 04:02:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.65714
- Title: Reasoning-preserved Efficient Distillation of Large Language Models via Activation-aware Initialization
- Title(参考訳): アクティベーション・アウェア初期化による大規模言語モデルの推論保存効率的蒸留
- Authors: Junlin He, Yihong Tang, Tong Nie, Guilong Li, Binyu Yang, Jinxiao Du, Lijun Sun, Wei Ma,
- Abstract要約: 本研究では, 大規模言語モデル (LLM) を構造化プルーニングパラメータによって圧縮し, 軽量モジュールを高い訓練効率でチューニングする手法を提案する。
我々は,多段階推論能力の深刻な劣化を同定し,これを推論崩壊と呼ぶ。
- 参考スコア(独自算出の注目度): 36.2325560349797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient Distillation (EDistill) compresses large language models (LLMs) by structured pruning parameters and tuning lightweight modules with high training efficiency. Although these EDistilled LLMs achieve state-of-the-art (SOTA) performance on general ability benchmarks relative to similarly sized LLMs, we identify a severe degradation in their multi-step reasoning ability, which we term reasoning collapse. We systematically analyze the geometric origins of reasoning collapse and show that the SOTA EDistill method based on width-reducing projection matrices suffers from eRank collapse, in which the effective rank (eRank) of hidden representations drops. We theoretically explain how singular values of randomly initialized projection matrices become unevenly distributed, leading to eRank collapse and thus token indistinguishability. To address this issue, we propose RED (Reasoning-preserved Efficient Distillation) for LLMs, which introduces activation-aware initialization to initialize projection matrices as channel-selection matrices, thus theoretically mitigating eRank collapse. Experiments on Llama and Qwen series demonstrate that RED substantially recovers reasoning while maintaining high training efficiency and SOTA general ability.
- Abstract(参考訳): 効率的な蒸留(EDistill)は、構造化プルーニングパラメータによって大きな言語モデル(LLM)を圧縮し、訓練効率の高い軽量モジュールをチューニングする。
これらのEDistilled LLMは、同様の大きさのLLMと比較して、一般能力ベンチマーク(SOTA)の性能が向上するが、その多段階推論能力は著しく低下しており、これは「推論崩壊」とよばれる。
推論崩壊の幾何学的起源を体系的に解析し,幅低減投影行列に基づく SOTA EDistill 法が eRank の崩壊に苦しむことを示し,隠れ表現の有効ランク (eRank) が低下する。
理論的には、ランダムに初期化された射影行列の特異値が不均一に分布し、eRankが崩壊しトークンが識別不能になる。
この問題に対処するため、我々はLEMに対するRED(Reasoning-preserved Efficient Distillation)を提案し、これはアクティベーション・アウェアな初期化を導入し、プロジェクション行列をチャネル選択行列として初期化し、理論的にはeRank崩壊を緩和する。
Llama と Qwen シリーズの実験では、RED は高い訓練効率とSOTA の汎用性を保ちながら推論を大幅に回復することを示した。
関連論文リスト
- Efficient Pre-Training of LLMs through Truncated SVD Layers [10.385452357306955]
LLM(Large Language Models)の大規模スケーリングにより、プレトレーニングはますますコストを抑えている。
本稿では,トレーニングプロセスを通じて低位と厳密な正則性を維持するフレームワークであるTLVDを紹介する。
論文 参考訳(メタデータ) (2026-05-27T14:57:49Z) - ODELoRA: Training Low-Rank Adaptation by Solving Ordinary Differential Equations [54.886931928255564]
低ランク適応(LoRA)は、深層移動学習においてパラメータ効率の高い微調整法として広く採用されている。
常微分方程式(ODE)の形でLoRA因子行列に対する新しい連続時間最適化ダイナミクスを提案する。
ODELoRAは,問題次元の異なるスケールのディープニューラルネットワークのトレーニングに不可欠な特性である,安定した特徴学習を実現する。
論文 参考訳(メタデータ) (2026-02-07T10:19:36Z) - A State-Transition Framework for Efficient LLM Reasoning [58.18141262230392]
ロングチェイン・オブ・ソート (Long Chain-of-Thought, CoT) 推論は、複雑な推論タスクにおいて、Large Language Models (LLM) のパフォーマンスを大幅に改善する。
既存の研究は通常、COT配列を圧縮することでLCMの推論効率を高める。
状態遷移過程としてLLMの推論過程をモデル化する効率的な推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-01T12:40:40Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - Efficient Uncertainty in LLMs through Evidential Knowledge Distillation [3.864321514889099]
性能を犠牲にすることなく,LLMの効率的かつ効果的な不確実性評価を可能にする新しい手法を提案する。
我々は、不確実性を考慮した教師モデルを、同じアーキテクチャを共有するコンパクトな学生モデルに蒸留するが、Lo-Rank Adaptation (LoRA)を用いて微調整する。
分類データセットに関する実証的な評価は、そのような学生が同等または優れた予測的・不確実性定量化性能を達成できることを証明している。
論文 参考訳(メタデータ) (2025-07-24T12:46:40Z) - OSoRA: Output-Dimension and Singular-Value Initialized Low-Rank Adaptation [9.048461365342204]
大規模言語モデル(LLM)のための新しいPEFT法であるOSoRAを提案する。
OSoRAは、微調整中にトレーニング可能なパラメータの数を最小化することで、計算リソースの要求を大幅に削減する。
数学的推論、常識推論、その他のベンチマークの総合的な評価は、OSoRAが最先端の手法と同等または優れた性能を達成していることを示している。
論文 参考訳(メタデータ) (2025-05-20T13:34:06Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。