論文の概要: Query and Response Augmentation Cannot Help Out-of-domain Math Reasoning
Generalization
- arxiv url: http://arxiv.org/abs/2310.05506v2
- Date: Wed, 1 Nov 2023 08:41:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 16:52:00.620049
- Title: Query and Response Augmentation Cannot Help Out-of-domain Math Reasoning
Generalization
- Title(参考訳): 問合せと応答の強化はドメイン外数学推論の一般化に役立たない
- Authors: Chengpeng Li, Zheng Yuan, Hongyi Yuan, Guanting Dong, Keming Lu,
Jiancan Wu, Chuanqi Tan, Xiang Wang, Chang Zhou
- Abstract要約: 大規模言語モデル(LLM)を用いた数学推論では、クエリの進化と多様な推論経路による微調整データ拡張が実証的に有効である。
1)データ拡張の戦略はより効果的か,(2)拡張データ量とモデル性能のスケーリングの関係はどのようなものか,(3)データ拡張は、領域外の数学的推論タスクに一般化を動機付けることができるのか?
- 参考スコア(独自算出の注目度): 56.24794149009814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In math reasoning with large language models (LLMs), fine-tuning data
augmentation by query evolution and diverse reasoning paths is empirically
verified effective, profoundly narrowing the gap between open-sourced LLMs and
cutting-edge proprietary LLMs. In this paper, we conduct an investigation for
such data augmentation in math reasoning and are intended to answer: (1) What
strategies of data augmentation are more effective; (2) What is the scaling
relationship between the amount of augmented data and model performance; and
(3) Can data augmentation incentivize generalization to out-of-domain
mathematical reasoning tasks? To this end, we create a new dataset, AugGSM8K,
by complicating and diversifying the queries from GSM8K and sampling multiple
reasoning paths. We obtained a series of LLMs called MuggleMath by fine-tuning
on subsets of AugGSM8K. MuggleMath substantially achieves new state-of-the-art
on GSM8K (from 54% to 68.4% at the scale of 7B, and from 63.9% to 74.0% at the
scale of 13B). A log-linear relationship is presented between MuggleMath's
performance and the amount of augmented data. We also find that MuggleMath is
weak in out-of-domain math reasoning generalization to MATH. This is attributed
to the differences in query distribution between AugGSM8K and MATH which
suggest that augmentation on a single benchmark could not help with overall
math reasoning performance. Codes and AugGSM8K will be uploaded to
https://github.com/OFA-Sys/gsm8k-ScRel.
- Abstract(参考訳): 大規模言語モデル(LLM)を用いた数学推論において、クエリの進化と多様な推論経路による微調整データ拡張は実験的に有効であり、オープンソースのLLMと最先端のLLMとのギャップを著しく狭めている。
本稿では,数理推論におけるデータ拡張に関する調査を行い,(1)データ拡張の戦略がより効果的であるか,(2)拡張データ量とモデル性能のスケーリングの関係はどのようなものか,(3)データ拡張は,領域外な数学的推論タスクへの一般化を動機付けることができるのか,などについて述べる。
この目的のために、GSM8Kからクエリを複雑化し、多様化し、複数の推論経路をサンプリングすることで、新しいデータセットAugGSM8Kを作成する。
auggsm8k の部分集合の微調整により mugglemath と呼ばれる一連の llm を得た。
MuggleMath は GSM8K の新たな最先端技術を実現している(GSM8K では 54% から 68.4% まで、スケール 7B では 63.9% から 74.0% まで)。
mugglemathのパフォーマンスと拡張データ量との間に対数線形関係が示される。
また、MuggleMathは領域外数学推論のMATHへの一般化に弱い。
これは auggsm8k と math のクエリ分布の違いによるもので、単一のベンチマークでの強化は全体の数学推論性能に寄与しないことを示唆している。
CodesとAugGSM8Kはhttps://github.com/OFA-Sys/gsm8k-ScRelにアップロードされる。
関連論文リスト
- Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。
拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文 参考訳(メタデータ) (2024-03-07T18:00:40Z) - MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。
しかし、数学的な問題を解く能力は依然として不十分である。
高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:42:59Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of
LLMs as Mathematical Problem Solvers [73.78371810664319]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible
Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。
本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。
本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文 参考訳(メタデータ) (2024-01-16T08:08:01Z) - MetaMath: Bootstrap Your Own Mathematical Questions for Large Language
Models [94.71699322751327]
数学的推論を専門とする微調整言語モデルであるMetaMathを提案する。
具体的には、余分な知識を伴わずに複数の視点から質問を書き換えることで、数学的質問をブートストラップすることから始める。
私たちは、すべてのMetaMathQAデータセット、異なるモデルサイズを持つMetaMathモデル、パブリック使用のためのトレーニングコードをリリースします。
論文 参考訳(メタデータ) (2023-09-21T17:45:42Z) - MAmmoTH: Building Math Generalist Models through Hybrid Instruction
Tuning [60.208045804204076]
我々は,一般的な数学問題解決に適したオープンソースの大規模言語モデル(LLM)であるMAmmoTHを紹介する。
MAmmoTHモデルは、厳密にキュレートされた命令チューニングデータセットであるMathInstructでトレーニングされている。
論文 参考訳(メタデータ) (2023-09-11T17:47:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。