論文の概要: Query and Response Augmentation Cannot Help Out-of-domain Math Reasoning
Generalization
- arxiv url: http://arxiv.org/abs/2310.05506v2
- Date: Wed, 1 Nov 2023 08:41:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 16:52:00.620049
- Title: Query and Response Augmentation Cannot Help Out-of-domain Math Reasoning
Generalization
- Title(参考訳): 問合せと応答の強化はドメイン外数学推論の一般化に役立たない
- Authors: Chengpeng Li, Zheng Yuan, Hongyi Yuan, Guanting Dong, Keming Lu,
Jiancan Wu, Chuanqi Tan, Xiang Wang, Chang Zhou
- Abstract要約: 大規模言語モデル(LLM)を用いた数学推論では、クエリの進化と多様な推論経路による微調整データ拡張が実証的に有効である。
1)データ拡張の戦略はより効果的か,(2)拡張データ量とモデル性能のスケーリングの関係はどのようなものか,(3)データ拡張は、領域外の数学的推論タスクに一般化を動機付けることができるのか?
- 参考スコア(独自算出の注目度): 56.24794149009814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In math reasoning with large language models (LLMs), fine-tuning data
augmentation by query evolution and diverse reasoning paths is empirically
verified effective, profoundly narrowing the gap between open-sourced LLMs and
cutting-edge proprietary LLMs. In this paper, we conduct an investigation for
such data augmentation in math reasoning and are intended to answer: (1) What
strategies of data augmentation are more effective; (2) What is the scaling
relationship between the amount of augmented data and model performance; and
(3) Can data augmentation incentivize generalization to out-of-domain
mathematical reasoning tasks? To this end, we create a new dataset, AugGSM8K,
by complicating and diversifying the queries from GSM8K and sampling multiple
reasoning paths. We obtained a series of LLMs called MuggleMath by fine-tuning
on subsets of AugGSM8K. MuggleMath substantially achieves new state-of-the-art
on GSM8K (from 54% to 68.4% at the scale of 7B, and from 63.9% to 74.0% at the
scale of 13B). A log-linear relationship is presented between MuggleMath's
performance and the amount of augmented data. We also find that MuggleMath is
weak in out-of-domain math reasoning generalization to MATH. This is attributed
to the differences in query distribution between AugGSM8K and MATH which
suggest that augmentation on a single benchmark could not help with overall
math reasoning performance. Codes and AugGSM8K will be uploaded to
https://github.com/OFA-Sys/gsm8k-ScRel.
- Abstract(参考訳): 大規模言語モデル(LLM)を用いた数学推論において、クエリの進化と多様な推論経路による微調整データ拡張は実験的に有効であり、オープンソースのLLMと最先端のLLMとのギャップを著しく狭めている。
本稿では,数理推論におけるデータ拡張に関する調査を行い,(1)データ拡張の戦略がより効果的であるか,(2)拡張データ量とモデル性能のスケーリングの関係はどのようなものか,(3)データ拡張は,領域外な数学的推論タスクへの一般化を動機付けることができるのか,などについて述べる。
この目的のために、GSM8Kからクエリを複雑化し、多様化し、複数の推論経路をサンプリングすることで、新しいデータセットAugGSM8Kを作成する。
auggsm8k の部分集合の微調整により mugglemath と呼ばれる一連の llm を得た。
MuggleMath は GSM8K の新たな最先端技術を実現している(GSM8K では 54% から 68.4% まで、スケール 7B では 63.9% から 74.0% まで)。
mugglemathのパフォーマンスと拡張データ量との間に対数線形関係が示される。
また、MuggleMathは領域外数学推論のMATHへの一般化に弱い。
これは auggsm8k と math のクエリ分布の違いによるもので、単一のベンチマークでの強化は全体の数学推論性能に寄与しないことを示唆している。
CodesとAugGSM8Kはhttps://github.com/OFA-Sys/gsm8k-ScRelにアップロードされる。
関連論文リスト
- ControlMath: Controllable Data Generation Promotes Math Generalist Models [38.0858432336873]
方程式生成モジュールと2つの LLM ベースのエージェントを含む反復的手法である ControlMath を提案する。
モジュールは多種多様な方程式を生成し、それを問題職人のエージェントが算術語問題に変換する。
ControlMathQAは190kの数学語問題を含む。
論文 参考訳(メタデータ) (2024-09-20T03:58:26Z) - Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。
Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。
我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文 参考訳(メタデータ) (2024-07-11T09:56:51Z) - DotaMath: Decomposition of Thought with Code Assistance and Self-correction for Mathematical Reasoning [24.68321102981711]
本稿では,数理推論にコードアシストと自己補正を併用した思考の分解を利用した大規模言語モデル(LLM)について紹介する。
DotaMathモデルは複雑な数学的タスクに対処し、それらをより単純な論理的なサブタスクに分解し、コードを利用してこれらのサブタスクを解決する。
そこで我々は,DotaMathQAの模倣学習を用いて,オープンソースのLLMと比較して優れた性能を示すDotaMathモデルを訓練した。
論文 参考訳(メタデータ) (2024-07-04T17:39:16Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - MuMath-Code: Combining Tool-Use Large Language Models with Multi-perspective Data Augmentation for Mathematical Reasoning [11.426127461122908]
この研究には、マルチパースペクティブなデータ拡張手法による新しい数学の質問が含まれ、その上でコードネストされたソリューションを合成する。
外部Pythonインタプリタと統合したオープン大言語モデル(LLM)は、数学的推論能力を大幅に強化した。
ステージ1では、純粋なCoTデータに基づいてLlama-2を微調整し、中間モデルを取得し、ステージ2のコードネストデータに基づいてトレーニングし、結果のMuMath-Codeを得る。
論文 参考訳(メタデータ) (2024-05-13T08:32:19Z) - MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。
しかし、数学的な問題を解く能力は依然として不十分である。
高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:42:59Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible
Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。
本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。
本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文 参考訳(メタデータ) (2024-01-16T08:08:01Z) - MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models [91.66694225955872]
数学的推論を専門とする微調整言語モデルであるMetaMathを提案する。
具体的には、余分な知識を伴わずに複数の視点から質問を書き換えることで、数学的質問をブートストラップすることから始める。
私たちは、すべてのMetaMathQAデータセット、異なるモデルサイズを持つMetaMathモデル、パブリック使用のためのトレーニングコードをリリースします。
論文 参考訳(メタデータ) (2023-09-21T17:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。