論文の概要: We Need Knowledge Distillation for Solving Math Word Problems
- arxiv url: http://arxiv.org/abs/2507.02982v1
- Date: Tue, 01 Jul 2025 06:34:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.496929
- Title: We Need Knowledge Distillation for Solving Math Word Problems
- Title(参考訳): 数学用語問題の解法には知識蒸留が必要である
- Authors: Zhenquan Shen, Xinguo Yu, Xiaotian Cheng, Rao Peng, Hao Ming,
- Abstract要約: 本稿では,大言語モデル (LLM) による数学語問題 (MWP) の解法の可能性について検討する。
BERTで符号化された埋め込みベクトルを圧縮し、かなり小さな学生モデルを蒸留する。
その結果,教師モデルの性能の90%近くを学生モデルが維持でき,そのパラメータは1/12に過ぎなかった。
- 参考スコア(独自算出の注目度): 4.0120437356207965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The enhancement of mathematical capabilities in large language models (LLMs) fosters new developments in mathematics education within primary and secondary schools, particularly as they relate to intelligent tutoring systems. However, LLMs require substantial computational resources, resulting in significant costs in educational contexts. To mitigate this drawback, this paper investigates the feasibility of compressing LLMs for solving math word problems (MWPs). We compress the embedded vectors encoded by BERT and distill a considerably smaller student model. Our findings indicate that the student model can maintain nearly 90% of the performance of the teacher model while utilizing only 1/12 of its parameters. In addition to achieving high accuracy, the model exhibits strong generalizability, as the compressed vectors perform well across all tasks related to MWPs, and the distillation process is not task-specific. The success of this distillation demonstrates that the underlying principles are generic and not limited to a specific task. We further explore the reasons behind the compressibility of embedded vectors, revealing that part-of-speech information, rather than entity recognition, is crucial for MWPs, which may significantly contribute to their compressibility. The improvements in efficiency and cost reduction provide substantial value for intelligent tutoring systems and significantly advance the field of intelligent education.
- Abstract(参考訳): 大規模言語モデル(LLM)における数学能力の強化は、特に知的なチューリングシステムに関連するため、初等・中等教育における数学教育の新たな発展を促進する。
しかし、LLMにはかなりの計算資源が必要であり、教育的な文脈においてかなりのコストがかかる。
この欠点を軽減するために,計算語問題(MWP)の解法としてLLMを圧縮する可能性を検討する。
BERTで符号化された埋め込みベクトルを圧縮し、かなり小さな学生モデルを蒸留する。
その結果,教師モデルの性能の90%近くを学生モデルが維持でき,そのパラメータは1/12に過ぎなかった。
圧縮されたベクトルはMWPに関連する全てのタスクでよく機能し、蒸留プロセスはタスク固有ではないため、高い一般化性を示す。
この蒸留の成功は、基礎となる原理が汎用的であり、特定のタスクに限らないことを示している。
さらに、組込みベクトルの圧縮性の背後にある理由を考察し、その圧縮性に大きく寄与するであろうMWPにとって、エンティティ認識よりも音声情報の一部が重要であることを明らかにした。
効率性の向上とコスト削減は、知的教育システムにとって大きな価値をもたらし、知的教育の分野を著しく前進させる。
関連論文リスト
- Investigating Structural Pruning and Recovery Techniques for Compressing Multimodal Large Language Models: An Empirical Study [64.26593350748401]
MLLM(Multimodal Large Language Models)は印象的な機能を示す。
SLM(Small Language Models)からのMLLMの学習を主とするパラメータ削減技術
本稿では, 構造物の刈り込みと効率的な回復訓練を組み合わせることで, 既存のMLLMを直接圧縮することを提案する。
論文 参考訳(メタデータ) (2025-07-28T11:57:52Z) - Enhancing Reasoning Capabilities in SLMs with Reward Guided Dataset Distillation [0.0]
本稿では,報酬誘導型データセット蒸留フレームワークAdvDistillを提案する。
我々は,教師からの複数の世代(応答)を各プロンプトに利用し,ルールベースの検証に基づいて報酬を割り当てる。
これらの様々な、通常は分散された報酬は、学生モデルを訓練する際の重みとなる。
論文 参考訳(メタデータ) (2025-06-25T20:07:47Z) - Efficient Heuristics Generation for Solving Combinatorial Optimization Problems Using Large Language Models [52.538586230181814]
近年のLarge Language Models (LLMs) を用いた組合せ最適化問題の解法に関する研究
プロンプトにおけるタスク固有の知識の欠如は、LLMが不特定な探索方向を提供し、良好なパフォーマンスの導出を妨げることがしばしばある。
本稿では,Herculesアルゴリズムを提案する。このアルゴリズムは設計したコア抽象化プロンプティング(CAP)法を利用して,コアコンポーネントをエリートHGから抽象化し,プリミティブに事前知識として組み込む。
論文 参考訳(メタデータ) (2025-05-19T02:20:46Z) - Improving Mathematical Reasoning Capabilities of Small Language Models via Feedback-Driven Distillation [15.542737858152053]
大規模言語モデル(LLM)は例外的な推論能力を示し、様々なタスクで最先端のパフォーマンスを達成する。
有望な解決策は知識蒸留であり、LLMがSmall Language Models (SLM)に推論機能を移行し、低リソースデバイスへのより広範なデプロイを可能にする。
本研究では,SLMの数学的推論能力を高めるために,フィードバック駆動蒸留(FDD)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T03:12:39Z) - LLM-based Cognitive Models of Students with Misconceptions [55.29525439159345]
本稿では,この2つの要件を満たすためにLLM(Large Language Models)を命令調整できるかどうかを検討する。
真正な学生ソリューションパターンを反映したデータセットを生成する新しいPythonライブラリであるMalAlgoPyを紹介する。
我々の洞察は、AIに基づく学生モデルの理解を高め、効果的な適応学習システムへの道を開く。
論文 参考訳(メタデータ) (2024-10-16T06:51:09Z) - Interpreting and Improving Large Language Models in Arithmetic Calculation [72.19753146621429]
大規模言語モデル(LLM)は、多くのアプリケーションにまたがる顕著な可能性を示している。
本研究では,LLMが計算を行う特定のメカニズムを明らかにする。
LLMの計算性能を高めるために、これらの必須ヘッド/MLPを選択的に微調整する潜在的な利点について検討する。
論文 参考訳(メタデータ) (2024-09-03T07:01:46Z) - Leveraging Zero-Shot Prompting for Efficient Language Model Distillation [3.4205390087622582]
本稿では, LLMをより小さく, アプリケーション固有のモデルに効率よく蒸留する方法を提案する。
LLMの推論機能を利用してラベルを生成し、ラベルのないデータに対して自然言語の合理性を生成する。
主な貢献は、教師モデルの合理性を引き出すため、ゼロショットの雇用である。
論文 参考訳(メタデータ) (2024-03-23T16:51:52Z) - From Large to Tiny: Distilling and Refining Mathematical Expertise for Math Word Problems with Weakly Supervision [12.023661884821554]
本稿では,大規模言語モデルから小型言語モデルへの数学的知識の伝達を徹底的に行う,革新的な2段階のフレームワークを提案する。
提案手法は,探索型'確率方程式'ペアにおける意味理解機能を完全に活用する。
Math23KとWeak12Kデータセットでは、既存の小さなモデルメソッドと比較して大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-03-21T13:29:54Z) - Democratizing Reasoning Ability: Tailored Learning from Large Language
Model [97.4921006089966]
そこで我々は,そのような推論能力をより小さなLMに蒸留する,適切な学習手法を提案する。
対話型多ラウンド学習パラダイムを構築することにより,理科教員としてのLLMの可能性を活用する。
より小さなLMの推論可能性を活用するために,学生が自作ミスから学習する動機付けを目的とした自己回帰学習を提案する。
論文 参考訳(メタデータ) (2023-10-20T07:50:10Z) - Knowledge-Augmented Reasoning Distillation for Small Language Models in
Knowledge-Intensive Tasks [90.11273439036455]
大規模言語モデル(LLM)は知識集約推論タスクにおいて有望なパフォーマンスを示している。
外部知識ベースから得られた知識を付加したLPMから理性を生成するための,小型LMを微調整する新しい手法であるKARDを提案する。
我々は,KARDが知識集約型推論データセットにおいて,小さなT5モデルとGPTモデルの性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。