論文の概要: Augmenting Math Word Problems via Iterative Question Composing
- arxiv url: http://arxiv.org/abs/2401.09003v4
- Date: Sun, 11 Feb 2024 04:10:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 20:56:55.018593
- Title: Augmenting Math Word Problems via Iterative Question Composing
- Title(参考訳): 反復質問合成による数学語問題の拡張
- Authors: Haoxiong Liu, Yifan Zhang, Yifan Luo, Andrew Chi-Chih Yao
- Abstract要約: 本稿では,処理されたWebデータと合成質問応答ペアを組み合わせたMMIQCデータセットを提案する。
Qwen-72B-MMIQCは45.0%の精度を達成し、以前のオープンソースの現状を8.2%上回っている。
- 参考スコア(独自算出の注目度): 8.186291374940595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the advancements in large language models (LLMs) for mathematical
reasoning, solving competition-level math problems remains a significant
challenge, especially for open-source LLMs without external tools. We introduce
the MMIQC dataset, comprising a mixture of processed web data and synthetic
question-response pairs, aimed at enhancing the mathematical reasoning
capabilities of base language models. Models fine-tuned on MMIQC consistently
surpass their counterparts in performance on the MATH benchmark across various
model sizes. Notably, Qwen-72B-MMIQC achieves a 45.0% accuracy, exceeding the
previous open-source state-of-the-art by 8.2% and outperforming the initial
version GPT-4 released in 2023. Extensive evaluation results on Hungarian high
school finals suggest that such improvement can generalize to unseen data. Our
ablation study on MMIQC reveals that a large part of the improvement can be
attributed to our novel augmentation method, Iterative Question Composing
(IQC), which involves iteratively composing new questions from seed problems
using an LLM and applying rejection sampling through another LLM. The MMIQC
dataset is available on the HuggingFace hub at
https://huggingface.co/datasets/Vivacem/MMIQC. Our code is available at
https://github.com/iiis-ai/IterativeQuestionComposing.
- Abstract(参考訳): 数学的推論のための大規模言語モデル(LLM)の進歩にもかかわらず、競合レベルの数学問題を解くことは大きな課題であり、特に外部ツールを持たないオープンソースLLMでは大きな問題である。
本稿では,基本言語モデルの数学的推論能力の向上を目的とした,処理されたWebデータと合成質問応答ペアを組み合わせたMMIQCデータセットを提案する。
MMIQCで微調整されたモデルは、様々なモデルサイズでMATHベンチマークのパフォーマンスにおいて、一貫してそのモデルを上回っている。
特に、Qwen-72B-MMIQCは45.0%の精度を達成し、2023年にリリースされた最初のバージョンであるGPT-4よりも8.2%上回った。
ハンガリー高校のファイナルにおける広範な評価結果から、このような改善は見えないデータに一般化できることが示唆されている。
MMIQCのアブレーション研究により, 改良の大部分は, LLMを用いて種子問題から新たな質問を反復的に合成し, 他のLPMを通して拒絶サンプリングを適用する, 新たな増補法Iterative Question Composing (IQC) によるものであることが明らかとなった。
MMIQCデータセットは、https://huggingface.co/datasets/Vivacem/MMIQCにあるHuggingFaceハブで利用可能である。
私たちのコードはhttps://github.com/iiis-ai/iterativequestioncocomposeで利用可能です。
関連論文リスト
- Key-Point-Driven Data Synthesis with its Enhancement on Mathematical
Reasoning [116.3631185427079]
大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を示している。
KPMathは、現在までの数学的推論に適した、最も広範な合成データセットである。
KPMath-Plus上のMistral-7Bモデルを微調整すると、MATHテストセットでのPASS@1の精度は39.3%になる。
論文 参考訳(メタデータ) (2024-03-04T18:58:30Z) - MathGenie: Generating Synthetic Data with Question Back-translation for
Enhancing Mathematical Reasoning of LLMs [39.769464414087935]
MathGenieは、小規模の問題解決データセットから多様で信頼性の高い数学問題を生成する新しい方法である。
7Bから70Bまでの各種事前学習モデルについて, 提案手法の有効性を検証するために, 新たなキュレートデータを用いて訓練を行った。
MathGenieLM-InternLM2はGSM8Kで87.7%、MATHで55.7%の精度を達成し、オープンソース言語モデルで最高のスコアを確保している。
論文 参考訳(メタデータ) (2024-02-26T07:17:25Z) - GeoEval: Benchmark for Evaluating LLMs and Multi-Modal Models on
Geometry Problem-Solving [42.87726507268092]
我々はGeoEvalベンチマーク、2000問題の主要サブセット、後方推論に焦点を当てた750問題サブセット、2000問題の拡張サブセット、300問題のハードサブセットを含む包括的コレクションを紹介する。
このベンチマークは、数学問題の解法におけるLarge Language Models (LLMs) とMulti-Modal Models (MMs) の性能についてより深く研究することを促進する。
これらのサブセットにおける10個のLLMとMMの評価から、WizardMathモデルは55.67%の精度で優れているが、6.00%の精度しか達成していないことが分かる。
論文 参考訳(メタデータ) (2024-02-15T16:59:41Z) - MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible
Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。
本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。
本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文 参考訳(メタデータ) (2024-01-16T08:08:01Z) - Which Syntactic Capabilities Are Statistically Learned by Masked
Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。
これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文 参考訳(メタデータ) (2024-01-03T02:44:02Z) - MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical
Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。
本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。
このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文 参考訳(メタデータ) (2023-10-05T17:52:09Z) - Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For
Large Language Models [23.344490944210456]
515Benchは,大規模言語モデル(LLM)の問題解決能力を評価するための,より困難なベンチマークデータセットである。
高度に競争力のあるIIT-Advanced試験から, 数学, 物理, 化学の課題を解き明かす。
さまざまなオープンソースおよびプロプライエタリなモデルに対する評価から,自己整合性や自己抑制性,チェーン・オブ・フォアリングといったテクニックを使用したとしても,最高のパフォーマンスは40%未満であることが分かる。
論文 参考訳(メタデータ) (2023-05-24T11:55:59Z) - T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Mixed Large
Language Model Signals for Science Question Answering [59.63860993280275]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
LLM信号を用いた科学質問応答の指導を目的とした,T-SciQと呼ばれる新しい手法を提案する。
提案手法は,ScienceQAベンチマークで96.18%の精度で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-05T11:56:30Z) - Learning to Perturb Word Embeddings for Out-of-distribution QA [55.103586220757464]
本論文では,入力問題と文脈の単語埋め込みを意味論を変化させることなく学習するノイズ発生器に基づく簡便かつ効果的なDA法を提案する。
ひとつのソースデータセットに,5つの異なるターゲットドメインに埋め込むことで,トレーニングされたQAモデルのパフォーマンスを検証する。
特に、私たちのトレーニングを受けたモデルは、240K以上の人工的なQAペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-06T14:12:26Z) - Logic-Guided Data Augmentation and Regularization for Consistent
Question Answering [55.05667583529711]
本稿では,比較質問に対する応答の精度と整合性を改善する問題に対処する。
提案手法は論理的および言語的知識を利用してラベル付きトレーニングデータを増強し,一貫性に基づく正規化器を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2020-04-21T17:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。