論文の概要: Think, Prune, Train, Improve: Scaling Reasoning without Scaling Models
- arxiv url: http://arxiv.org/abs/2504.18116v1
- Date: Fri, 25 Apr 2025 06:48:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.668409
- Title: Think, Prune, Train, Improve: Scaling Reasoning without Scaling Models
- Title(参考訳): Think, Prune, Train, Improve: モデルをスケーリングせずにリ推論をスケールする
- Authors: Caia Costello, Simon Guo, Anna Goldie, Azalia Mirhoseini,
- Abstract要約: 大規模言語モデル(LLM)は、プログラミングや数学的推論タスクにおいて強力な能力を示しているが、高品質な訓練データに制限されている。
我々は,高品質なトレーニングデータを確保するために,地道プルースプルーニングを用いて,自身の推論トレースを反復的に微調整するスケーラブルなフレームワークを導入する。
GSM8Kでは、Gemma2-2Bは57.6%(41.9%から)のPass@1、Gemma2-9Bは82%、LLaMA-3.1-70B、LLaMA-3.1-70Bは91%、GPT-4oを超える。
- 参考スコア(独自算出の注目度): 1.96238419451815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated strong capabilities in programming and mathematical reasoning tasks, but are constrained by limited high-quality training data. Synthetic data can be leveraged to enhance fine-tuning outcomes, but several factors influence this process, including model size, synthetic data volume, pruning strategy, and number of fine-tuning rounds. We explore these axes and investigate which conditions enable model self-improvement. We introduce the Think, Prune, Train process, a scalable framework that iteratively fine-tunes models on their own reasoning traces, using ground-truth pruning to ensure high-quality training data. This approach yields improved performance: on GSM8K, Gemma2-2B achieves a Pass@1 of 57.6% (from 41.9%), Gemma2-9B reaches 82%, matching LLaMA-3.1-70B, and LLaMA-3.1-70B attains 91%, even surpassing GPT-4o, demonstrating the effectiveness of self-generated reasoning and systematic data selection for improving LLM capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)は、プログラミングや数学的推論タスクにおいて強力な能力を示しているが、高品質な訓練データに制限されている。
合成データは、微調整結果を高めるために利用することができるが、モデルサイズ、合成データ量、プルーニング戦略、微調整ラウンド数など、いくつかの要因がこのプロセスに影響を与える。
これらの軸を探索し、モデル自己改善を可能にする条件について検討する。
我々はThink,Prune,Trainプロセスを紹介します。これは、高品質なトレーニングデータを保証するために、地道プルーニング(ground-truth pruning)を使用して、自身の推論トレースを反復的に微調整する、スケーラブルなフレームワークです。
GSM8Kでは、Gemma2-2Bは57.6%のPass@1(41.9%から)、Gemma2-9Bは82%に達し、LLaMA-3.1-70Bとマッチングし、LLaMA-3.1-70Bは91%に達し、GPT-4oを上回り、自己生成推論と体系的なデータ選択の有効性を示す。
関連論文リスト
- S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - LIMR: Less is More for RL Scaling [25.477841726836836]
学習影響測定(Learning Impact Measurement, LIM)は, 学習サンプルを評価・優先順位付けする自動手法である。
提案手法は,1,389個のサンプルと8,523個のサンプルの完全なデータセットとを比較して,同等あるいは優れた性能を実現する。
再現可能な研究と今後のイノベーションのために、LIMRをオープンソース化しています。LIMRの実装、トレーニングと評価コード、キュレートされたデータセット、トレーニングされたモデルなどです。
論文 参考訳(メタデータ) (2025-02-17T15:13:29Z) - The Best Instruction-Tuning Data are Those That Fit [17.401088816596054]
事前訓練された大言語モデル(LLM)から強機能を引き出すためには,SFT(Supervised Fine-tuning)データが必要である。
GRAPE*は,対象モデルの特異な特徴を考慮に入れた,新しいSFTフレームワークである。
各命令に対して、様々なLSMからの応答を収集し、ターゲットモデルによって測定された最も高い確率の命令を選択する。
論文 参考訳(メタデータ) (2025-02-06T16:31:21Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Self-Data Distillation for Recovering Quality in Pruned Large Language Models [1.5665059604715017]
ワンショットプルーニングは、特に多段階推論を必要とするタスクにおいて、大幅な品質劣化をもたらす。
品質の低下を回復するために、教師付き微調整(SFT)が一般的に用いられるが、これは破滅的な忘れを招きかねない。
本研究では,これらの課題に対処するために,自己データ蒸留ファインチューニングを利用する。
論文 参考訳(メタデータ) (2024-10-13T19:53:40Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - Crafting Efficient Fine-Tuning Strategies for Large Language Models [2.633490094119608]
200サンプル未満の細調整された大型言語モデル(LLM)は、製品属性抽出タスクにおいて、モデル精度を70%から88%に向上させることができる。
トレーニング時間全体の20%のモデルを評価するベイズハイパーパラメータ最適化法は,最終的なモデル性能と強く相関する。
このアプローチにより、独立したテストセットで評価すると、ベースラインモデルよりも精度が2%向上した。
論文 参考訳(メタデータ) (2024-07-18T21:36:00Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。
拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文 参考訳(メタデータ) (2024-03-07T18:00:40Z) - Pruning Large Language Models via Accuracy Predictor [0.0]
数十億のパラメータ(あるいはそれ以上)を含む大規模言語モデル(LLM)は、様々なNLPタスクにおいて印象的な機能を示している。
まず,一定の数のアーキテクチャと精度のペアのトレーニングセットを構築し,非ニューラルネットワークモデルを精度予測器として訓練する。
論文 参考訳(メタデータ) (2023-09-18T06:38:24Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。