論文の概要: Can Large Models Teach Student Models to Solve Mathematical Problems Like Human Beings? A Reasoning Distillation Method via Multi-LoRA Interaction
- arxiv url: http://arxiv.org/abs/2508.13037v1
- Date: Mon, 18 Aug 2025 15:56:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.467658
- Title: Can Large Models Teach Student Models to Solve Mathematical Problems Like Human Beings? A Reasoning Distillation Method via Multi-LoRA Interaction
- Title(参考訳): 大規模モデルは、人間のような数学的問題を解くために学生モデルを教えることができるか? : マルチロラ相互作用による推論的蒸留法
- Authors: Xinhe Li, Jiajun Liu, Peng Wang,
- Abstract要約: 大規模言語モデル(LLM)は強力な数学的推論能力を持つが、数十億のパラメータに依存している。
既存の手法は通常、LCMを利用して大量のデータを生成してクラミングトレーニングを行う。
数学的推論蒸留(LoRID)のためのマルチロラ相互作用に基づく新しい手法を提案する。
LoRIDは、特にGSM8Kデータセット上で、最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 6.695255921627406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have demonstrated that Large Language Models (LLMs) have strong mathematical reasoning abilities but rely on hundreds of billions of parameters. To tackle the challenge of poor reasoning in Small Language Models (SLMs), existing methods typically leverage LLMs to generate massive amounts of data for cramming training. In psychology, they are akin to System 1 thinking, which resolves reasoning problems rapidly based on experience and intuition. However, human learning also requires System 2 thinking, where knowledge is first acquired and then reinforced through practice. Inspired by such two distinct modes of thinking, we propose a novel method based on the multi-LoRA Interaction for mathematical reasoning Distillation (LoRID). First, we input the question and reasoning of each sample into an LLM to create knowledge-enhanced datasets. Subsequently, we train a LoRA block on the student model as an Intuitive Reasoner (IR), which directly generates Chain-of-Thoughts for problem-solving. Then, to imitate System 2 thinking, we train the Knowledge Generator (KG) and Deep Reasoner (DR), respectively. The former outputs only knowledge after receiving problems, while the latter uses that knowledge to perform reasoning. Finally, to address the randomness in the generation of IR and DR, we evaluate whether their outputs are consistent, and the inference process needs to be iterated if not. This step can enhance the mathematical reasoning ability of SLMs through mutual feedback. Experimental results show that LoRID achieves state-of-the-art performance, especially on the GSM8K dataset, where it outperforms the second-best method by 2.3%, 16.1%, 2.4%, 12.3%, and 1.8% accuracy across the five base models, respectively.
- Abstract(参考訳): 近年の研究では、Large Language Models (LLM) は強力な数学的推論能力を持つが、数十億のパラメータに依存することが示されている。
SLM(Small Language Models)における推論の難しさに対処するため、既存の手法ではLLMを利用して大量のデータを生成してクラミングトレーニングを行うのが一般的である。
心理学において、それらはシステム1の思考に似ており、経験と直観に基づいて推論問題を迅速に解決する。
しかし、人間の学習にはシステム2の思考も必要であり、そこでは知識が最初に獲得され、実践を通じて強化される。
このような2つの異なる考え方から着想を得て,数理推論蒸留(LoRID)のためのマルチロラ相互作用に基づく新しい手法を提案する。
まず、各サンプルの質問と推論をLLMに入力し、知識に富んだデータセットを作成する。
その後、学生モデル上のLoRAブロックを直観的推論(IR)として訓練し、問題解決のためのChain-of-Thoughtsを直接生成する。
次に,システム2の思考を模倣するために,知識発生器(KG)と深部推論器(DR)をそれぞれ訓練する。
前者は問題を受けた後にのみ知識を出力し、後者は推論を行うためにその知識を使用する。
最後に、IR と DR の生成におけるランダム性に対処するために、それらの出力が一貫したものであるかどうかを評価し、もしそうでなければ推論プロセスを繰り返す必要がある。
このステップは相互フィードバックによってSLMの数学的推論能力を高めることができる。
実験の結果、特にGSM8Kデータセットにおいて、LoRIDは最先端のパフォーマンスを達成し、5つのベースモデルでそれぞれ2.3%、16.1%、2.4%、12.3%、および1.8%の精度で2番目のベストメソッドを上回った。
関連論文リスト
- CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models [56.40065909544213]
大規模言語モデル(LLM)は、テスト時間スケーリングとして知られる、テスト時間計算の増加の恩恵を受ける。
しかし、推論最適化モデルはしばしば単純な問題さえ考え過ぎ、過度に冗長な出力を生成し、トークン効率を低下させる。
1)強化学習は前方推論の情報密度を減少させ,(2)後方連鎖学習は冗長でしばしば不要な検証ステップを促進する。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - System-2 Mathematical Reasoning via Enriched Instruction Tuning [13.672967091915181]
Enriched Instruction Tuning (EIT) は、人間とAIのフィードバックを相乗化することによって、既存の人間の注釈付き数学的データセットを充実させる手法である。
EITはGSM8Kで84.1%、MATHで32.5%の精度を達成し、最先端の微調整およびプロンプト法を超越している。
論文 参考訳(メタデータ) (2024-12-22T10:49:27Z) - Learning from Committee: Reasoning Distillation from a Mixture of Teachers with Peer-Review [11.756344944226495]
ピアリビュー(FAIR)アプローチによる新しいフォールト・アウェア・ディストイレーション(Fact-Aware DistIllation)を導入する。
本手法は,教師から合理性を得るのではなく,教師に生徒の過ちを特定・説明するよう求めている。
本手法は,教師が正しい推理を行う確率を低くする。
論文 参考訳(メタデータ) (2024-10-04T17:59:41Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Democratizing Reasoning Ability: Tailored Learning from Large Language
Model [97.4921006089966]
そこで我々は,そのような推論能力をより小さなLMに蒸留する,適切な学習手法を提案する。
対話型多ラウンド学習パラダイムを構築することにより,理科教員としてのLLMの可能性を活用する。
より小さなLMの推論可能性を活用するために,学生が自作ミスから学習する動機付けを目的とした自己回帰学習を提案する。
論文 参考訳(メタデータ) (2023-10-20T07:50:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。