Fugu-MT 論文翻訳(概要): Scaling Relationship on Learning Mathematical Reasoning with Large Language Models

論文の概要: Scaling Relationship on Learning Mathematical Reasoning with Large Language Models

arxiv url: http://arxiv.org/abs/2308.01825v2
Date: Wed, 13 Sep 2023 03:57:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-14 17:33:11.115017
Title: Scaling Relationship on Learning Mathematical Reasoning with Large Language Models
Title（参考訳）: 大規模言語モデルを用いた数学的推論学習におけるスケーリング関係
Authors: Zheng Yuan, Hongyi Yuan, Chengpeng Li, Guanting Dong, Keming Lu, Chuanqi Tan, Chang Zhou, Jingren Zhou
Abstract要約: 本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
参考スコア（独自算出の注目度）: 75.29595679428105
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Mathematical reasoning is a challenging task for large language models (LLMs), while the scaling relationship of it with respect to LLM capacity is under-explored. In this paper, we investigate how the pre-training loss, supervised data amount, and augmented data amount influence the reasoning performances of a supervised LLM. We find that pre-training loss is a better indicator of the model's performance than the model's parameter count. We apply supervised fine-tuning (SFT) with different amounts of supervised data and empirically find a log-linear relation between data amount and model performance, and we find better models improve less with enlarged supervised datasets. To augment more data samples for improving model performances without any human effort, we propose to apply Rejection sampling Fine-Tuning (RFT). RFT uses supervised models to generate and collect correct reasoning paths as augmented fine-tuning datasets. We find with augmented samples containing more distinct reasoning paths, RFT improves mathematical reasoning performance more for LLMs. We also find RFT brings more improvement for less performant LLMs. Furthermore, we combine rejection samples from multiple models which push LLaMA-7B to an accuracy of 49.3\% on GSM8K which outperforms the supervised fine-tuning (SFT) accuracy of 35.9\% significantly.
Abstract（参考訳）: 数学的推論は大規模言語モデル(LLM)では難しい課題であるが、LLMの能力に関するスケーリングの関係は未解明である。本稿では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。事前学習損失は,モデルのパラメータ数よりもモデルの性能の指標として優れている。我々は,教師ありデータの量が異なる教師あり微調整(sft)を適用し,データ量とモデル性能の対数線形関係を実験的に把握し,教師ありデータセットの拡張により,よりよいモデルが改善されないことを発見した。人間の努力なしにモデル性能を向上させるためのデータサンプルを増やすため,Rejection sample Fine-Tuning (RFT) を提案する。 RFTは教師付きモデルを使用して、強化された微調整データセットとして正しい推論パスを生成し、収集する。より明確な推論経路を含む拡張サンプルにより、RTTはLLMの数学的推論性能を向上する。 RFTは、性能の低いLLMに対して、さらなる改善をもたらします。さらに,ラマ-7bをgsm8k上で49.3\%の精度で押し上げる複数のモデルからの拒絶サンプルを合成し,教師付き微調整(sft)精度を35.9\%を大きく上回った。

関連論文リスト

SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
Scalpel vs. Hammer: GRPO Amplifies Existing Capabilities, SFT Replaces Them [25.324955028065887]
一般的な2つのアプローチは強化学習(RL)と教師付き微調整(SFT)である。 MMLUのような知識集約型ベンチマークでは,RLは数学の領域内ゲインとわずかに低下することがわかった。 SFTはさらなる更新を示し、中間層クエリにも影響し、ドメイン外劣化を引き起こした可能性があると推測する。
論文参考訳（メタデータ） (2025-07-13T19:04:17Z)
Behavior Injection: Preparing Language Models for Reinforcement Learning [24.46625106928253]
強化微調整(Reinforcement fine-tuning, RFT)は、大規模言語モデル(LLM)の推論能力を高めるための強力なポストトレーニング手法として登場した。 LLM は RFT に非常に矛盾しない応答が可能である。 RLに先立って適用されたタスクに依存しないデータ拡張方式である振舞い注入を提案する。
論文参考訳（メタデータ） (2025-05-25T00:54:50Z)
FisherSFT: Data-Efficient Supervised Fine-Tuning of Language Models Using Information Gain [14.109309236798518]
Supervised Fine-tuning (SFT) は、大規模言語モデル(LLM)を新しいドメインに適用するための標準的なアプローチである。本研究では,SFTの統計的効率を向上させるために,学習例の有意なサブセットを選択する。
論文参考訳（メタデータ） (2025-05-20T18:41:34Z)
Learning from Reasoning Failures via Synthetic Data Generation [5.893928870271388]
本稿では,既存のLMMの推論失敗の分析に基づく合成データ生成手法を提案する。 553k以上のサンプルを含む大規模なマルチモーダル命令チューニングデータセットを生成する。以上の結果から,我々の合成データに基づいてトレーニングしたモデルが,等価量の実データに基づいてトレーニングしたLMMの性能を上回ることが示唆された。
論文参考訳（メタデータ） (2025-04-20T07:45:53Z)
OpenCodeReasoning: Advancing Data Distillation for Competitive Coding [61.15402517835137]
教師付き微調整(SFT)データセットを構築し、様々なサイズのモデルで最先端のコーディング能力を実現する。私たちのモデルは、LiveCodeBenchで61.8%、CodeContestsで24.6%を達成するためにSFTのみを使用しており、強化学習でトレーニングされた代替品を上回っています。
論文参考訳（メタデータ） (2025-04-02T17:50:31Z)
S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
From Drafts to Answers: Unlocking LLM Potential via Aggregation Fine-Tuning [31.95005389919542]
データスケールとモデルサイズは、大規模言語モデルの性能向上に有効であることが証明されている。本稿では,教師付きファインチューニングパラダイムであるAggregation Fine-Tuning(AFT)を紹介する。ベンチマークデータセットの実証評価では、AFT訓練されたモデルは標準のSFTよりも大幅に優れていた。
論文参考訳（メタデータ） (2025-01-21T04:11:59Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文参考訳（メタデータ） (2024-10-11T04:57:48Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。 LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
TRAWL: Tensor Reduced and Approximated Weights for Large Language Models [11.064868044313855]
TRAWL (Tensor Reduced and Approximated Weights for Large Language Models) は、複数の重み行列に対してテンソル分解を適用し、大域的な構造パターンを捉えることでLLMを効果的に分解する手法である。我々の実験によると、TRAWLは、追加のデータやトレーニング、微調整を必要とせず、ベンチマークデータセットのベースラインモデルよりも最大16%モデル性能を向上させる。
論文参考訳（メタデータ） (2024-06-25T04:01:32Z)
Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文参考訳（メタデータ） (2024-06-17T04:35:17Z)
LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。 LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。 GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文参考訳（メタデータ） (2024-03-22T08:57:07Z)
To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文参考訳（メタデータ） (2023-05-22T17:02:15Z)
Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。 4つのNLPベンチマークで3つの結果を得た。
論文参考訳（メタデータ） (2023-05-03T17:50:56Z)
Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文参考訳（メタデータ） (2021-11-09T03:23:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。