論文の概要: Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models
- arxiv url: http://arxiv.org/abs/2308.01825v2
- Date: Wed, 13 Sep 2023 03:57:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 17:33:11.115017
- Title: Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models
- Title(参考訳): 大規模言語モデルを用いた数学的推論学習におけるスケーリング関係
- Authors: Zheng Yuan, Hongyi Yuan, Chengpeng Li, Guanting Dong, Keming Lu,
Chuanqi Tan, Chang Zhou, Jingren Zhou
- Abstract要約: 本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
- 参考スコア(独自算出の注目度): 75.29595679428105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mathematical reasoning is a challenging task for large language models
(LLMs), while the scaling relationship of it with respect to LLM capacity is
under-explored. In this paper, we investigate how the pre-training loss,
supervised data amount, and augmented data amount influence the reasoning
performances of a supervised LLM. We find that pre-training loss is a better
indicator of the model's performance than the model's parameter count. We apply
supervised fine-tuning (SFT) with different amounts of supervised data and
empirically find a log-linear relation between data amount and model
performance, and we find better models improve less with enlarged supervised
datasets. To augment more data samples for improving model performances without
any human effort, we propose to apply Rejection sampling Fine-Tuning (RFT). RFT
uses supervised models to generate and collect correct reasoning paths as
augmented fine-tuning datasets. We find with augmented samples containing more
distinct reasoning paths, RFT improves mathematical reasoning performance more
for LLMs. We also find RFT brings more improvement for less performant LLMs.
Furthermore, we combine rejection samples from multiple models which push
LLaMA-7B to an accuracy of 49.3\% on GSM8K which outperforms the supervised
fine-tuning (SFT) accuracy of 35.9\% significantly.
- Abstract(参考訳): 数学的推論は大規模言語モデル(LLM)では難しい課題であるが、LLMの能力に関するスケーリングの関係は未解明である。
本稿では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
事前学習損失は,モデルのパラメータ数よりもモデルの性能の指標として優れている。
我々は,教師ありデータの量が異なる教師あり微調整(sft)を適用し,データ量とモデル性能の対数線形関係を実験的に把握し,教師ありデータセットの拡張により,よりよいモデルが改善されないことを発見した。
人間の努力なしにモデル性能を向上させるためのデータサンプルを増やすため,Rejection sample Fine-Tuning (RFT) を提案する。
RFTは教師付きモデルを使用して、強化された微調整データセットとして正しい推論パスを生成し、収集する。
より明確な推論経路を含む拡張サンプルにより、RTTはLLMの数学的推論性能を向上する。
RFTは、性能の低いLLMに対して、さらなる改善をもたらします。
さらに,ラマ-7bをgsm8k上で49.3\%の精度で押し上げる複数のモデルからの拒絶サンプルを合成し,教師付き微調整(sft)精度を35.9\%を大きく上回った。
関連論文リスト
- A Systematic Approach to Robustness Modelling for Deep Convolutional
Neural Networks [0.294944680995069]
最近の研究は、より大きなモデルが制御された列車やテストセット外のデータに一般化できるかどうかという疑問を提起している。
本稿では,障害発生確率を時間関数としてモデル化する手法を提案する。
コスト、ロバスト性、レイテンシ、信頼性のトレードオフについて検討し、より大きなモデルが敵のロバスト性に大きく寄与しないことを示す。
論文 参考訳(メタデータ) (2024-01-24T19:12:37Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Inverse Scaling: When Bigger Isn't Better [64.993426536523]
大規模言語モデル(LM)は、スケールの増大による全体的な損失に対する予測可能な改善を示している。
我々は,LMが逆スケーリングや,スケールの増大に伴うタスクパフォーマンスの悪化を示す可能性があるという主張を裏付ける証拠を示す。
論文 参考訳(メタデータ) (2023-06-15T20:11:23Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z) - Less is More: Reducing Task and Model Complexity for 3D Point Cloud
Semantic Segmentation [26.94284739177754]
新しいパイプラインは、より優れたセグメンテーション精度を達成するために、より少ない地平線アノテーションを必要とする。
Sparse Depthwise Separable Convolutionモジュールは、ネットワークパラメータ数を著しく削減する。
新しいspatio-Temporal Redundant Frame Downsampling (ST-RFD) 法は、トレーニングデータフレームのより多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2023-03-20T15:36:10Z) - Low-variance estimation in the Plackett-Luce model via quasi-Monte Carlo
sampling [58.14878401145309]
PLモデルにおいて,より標本効率の高い予測値を生成するための新しい手法を開発した。
Amazon MusicのリアルなレコメンデーションデータとYahooの学習からランクへの挑戦を理論的にも実証的にも使用しています。
論文 参考訳(メタデータ) (2022-05-12T11:15:47Z) - Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。
具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-09T03:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。