論文の概要: Efficient Mathematical Reasoning Models via Dynamic Pruning and Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2511.17577v1
- Date: Sat, 15 Nov 2025 09:21:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.247189
- Title: Efficient Mathematical Reasoning Models via Dynamic Pruning and Knowledge Distillation
- Title(参考訳): ダイナミックプルーニングと知識蒸留による効率的な数学的推論モデル
- Authors: Fengming Yu, Qingyu Meng, Haiwei Pan, Kejia Zhang,
- Abstract要約: 本稿では,ダイナミックアテンションヘッドプルーニングと知識蒸留を統合した軽量な最適化手法を提案する。
Math23k と ASDiv-A で行った実験により,提案手法の有効性が検証された。
- 参考スコア(独自算出の注目度): 2.596115982322528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of deep learning, large language models have shown strong capabilities in complex reasoning tasks such as mathematical equation solving. However, their substantial computational and storage costs hinder practical deployment. This paper proposes a lightweight optimization method that integrates dynamic attention head pruning with knowledge distillation. The approach dynamically evaluates the importance of each attention head in the multi-head attention mechanism using a combination of weight norms and entropy, and prunes redundant heads in real time to reduce computational overhead. To mitigate performance degradation, knowledge distillation transfers information from the original model to the pruned student, enabling the smaller model to preserve reasoning ability. Experiments conducted on both Math23k and ASDiv-A verify the effectiveness of the proposed method. For example, on Math23k with a 30% pruning ratio, parameters are reduced by 18.7%, inference speed is improved by 27.5%, FLOPs are reduced by 19.3%, and accuracy drops only 0.7% (from 84.4% to 83.7%). These results demonstrate that the method achieves substantial efficiency gains while maintaining strong reasoning performance, providing a practical solution for efficient deployment of large language models in mathematical reasoning tasks.
- Abstract(参考訳): ディープラーニングの急速な発展に伴い、数学方程式の解法のような複雑な推論タスクにおいて、大きな言語モデルは強力な能力を示してきた。
しかし、その計算とストレージのコストは現実的な展開を妨げている。
本稿では,ダイナミックアテンションヘッドプルーニングと知識蒸留を統合した軽量な最適化手法を提案する。
提案手法は,重みノルムとエントロピーを組み合わせたマルチヘッドアテンション機構における各アテンションヘッドの重要性を動的に評価し,計算オーバーヘッドを低減するために,冗長ヘッドをリアルタイムでプーンする。
性能劣化を緩和するため、知識蒸留は元のモデルから刈り取られた学生に情報を伝達し、より小さなモデルで推論能力を維持できる。
Math23k と ASDiv-A で行った実験により,提案手法の有効性が検証された。
例えば、30%のプルーニング比を持つMath23kでは、パラメータは18.7%、推論速度は27.5%、FLOPは19.3%、精度はわずか0.7%(84.4%から83.7%)である。
これらの結果から,本手法は高い推論性能を維持しつつ,かなりの効率向上を実現し,数学的推論タスクにおける大規模言語モデルの効率的な展開のための実用的なソリューションを提供する。
関連論文リスト
- Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。
本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。
本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文 参考訳(メタデータ) (2025-07-31T05:34:27Z) - Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。
LRM効率を向上させるための2つの軽量手法を提案する。
まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。
第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文 参考訳(メタデータ) (2025-06-18T17:18:12Z) - Think or Not? Exploring Thinking Efficiency in Large Reasoning Models via an Information-Theoretic Lens [51.90059610606049]
本稿では,情報理論レンズによる推論プロセスの効率を再考する。
本稿では,理想的な推論経路と段階的な情報提供から分岐を定量化するために,InfoBias と InfoGain という2つの指標を提案する。
これらの知見に触発されて,信頼度が十分に高ければ推論を動的に停止する,エントロピーに基づく適応的思考戦略を導入する。
論文 参考訳(メタデータ) (2025-05-23T13:38:56Z) - DRP: Distilled Reasoning Pruning with Skill-aware Step Decomposition for Efficient Large Reasoning Models [2.768827482823499]
推定時間とチューニングに基づく蒸留を組み合わせたハイブリッドフレームワークであるDistilled Reasoning Pruning(トレース)を提案する。
トレースでトレーニングされたモデルは、精度を犠牲にすることなく、トークン効率を大幅に改善することを発見した。
さらに分析した結果,CoTの推論構造と学生の推論能力の整合性は,効果的な知識伝達と性能向上に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2025-05-20T06:15:15Z) - Efficient Gravitational Wave Parameter Estimation via Knowledge Distillation: A ResNet1D-IAF Approach [2.4184866684341473]
本研究では,重力波解析における計算効率を高めるため,知識蒸留技術を用いた新しい手法を提案する。
我々はResNet1Dと逆自己回帰フロー(Inverse Autoregressive Flow, IAF)アーキテクチャを組み合わせたフレームワークを開発し、複雑な教師モデルからの知識をより軽い学生モデルに伝達する。
実験の結果,教師モデルの4.09と比較すると,学生モデルは最適構成(40,100,0.75)で3.70の検証損失を達成し,パラメータの数を43%削減した。
論文 参考訳(メタデータ) (2024-12-11T03:56:46Z) - Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。
その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-25T21:49:09Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文 参考訳(メタデータ) (2020-07-13T16:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。