論文の概要: Augmenting Math Word Problems via Iterative Question Composing
- arxiv url: http://arxiv.org/abs/2401.09003v3
- Date: Tue, 30 Jan 2024 15:29:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 18:07:16.578601
- Title: Augmenting Math Word Problems via Iterative Question Composing
- Title(参考訳): 反復質問合成による数学語問題の拡張
- Authors: Haoxiong Liu, Yifan Zhang, Yifan Luo, Andrew Chi-Chih Yao
- Abstract要約: 本稿では,処理されたWebデータと合成質問応答ペアを組み合わせたMMIQCデータセットを提案する。
Qwen-72B-MMIQCは45.0%の精度を達成し、以前のオープンソースの現状を8.2%上回っている。
- 参考スコア(独自算出の注目度): 8.186291374940595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the advancements in large language models (LLMs) for mathematical
reasoning, solving competition-level math problems remains a significant
challenge, especially for open-source LLMs without external tools. We introduce
the MMIQC dataset, comprising a mixture of processed web data and synthetic
question-response pairs, aimed at enhancing the mathematical reasoning
capabilities of base language models. Models fine-tuned on MMIQC consistently
surpass their counterparts in performance on the MATH benchmark across various
model sizes. Notably, Qwen-72B-MMIQC achieves a 45.0% accuracy, exceeding the
previous open-source state-of-the-art by 8.2% and outperforming the initial
version GPT-4 released in 2023. Extensive evaluation results on Hungarian high
school finals suggest that such improvement can generalize to unseen data. Our
ablation study on MMIQC reveals that a large part of the improvement can be
attributed to our novel augmentation method, Iterative Question Composing
(IQC), which involves iteratively composing new questions from seed problems
using an LLM and applying rejection sampling through another LLM. The MMIQC
dataset is available on the HuggingFace hub at
https://huggingface.co/datasets/Vivacem/MMIQC. Our code is available at
https://github.com/iiis-ai/IterativeQuestionComposing.
- Abstract(参考訳): 数学的推論のための大規模言語モデル(LLM)の進歩にもかかわらず、競合レベルの数学問題を解くことは大きな課題であり、特に外部ツールを持たないオープンソースLLMでは大きな問題である。
本稿では,基本言語モデルの数学的推論能力の向上を目的とした,処理されたWebデータと合成質問応答ペアを組み合わせたMMIQCデータセットを提案する。
MMIQCで微調整されたモデルは、様々なモデルサイズでMATHベンチマークのパフォーマンスにおいて、一貫してそのモデルを上回っている。
特に、Qwen-72B-MMIQCは45.0%の精度を達成し、2023年にリリースされた最初のバージョンであるGPT-4よりも8.2%上回った。
ハンガリー高校のファイナルにおける広範な評価結果から、このような改善は見えないデータに一般化できることが示唆されている。
MMIQCのアブレーション研究により, 改良の大部分は, LLMを用いて種子問題から新たな質問を反復的に合成し, 他のLPMを通して拒絶サンプリングを適用する, 新たな増補法Iterative Question Composing (IQC) によるものであることが明らかとなった。
MMIQCデータセットは、https://huggingface.co/datasets/Vivacem/MMIQCにあるHuggingFaceハブで利用可能である。
私たちのコードはhttps://github.com/iiis-ai/iterativequestioncocomposeで利用可能です。
関連論文リスト
- BEATS: Optimizing LLM Mathematical Capabilities with BackVerify and Adaptive Disambiguate based Efficient Tree Search [22.672130194493793]
大規模言語モデル(LLM)は、幅広いタスクやドメインで例外的なパフォーマンスを示している。
彼らは数学の厳密で論理的な性質のため、数学の問題を解くのに依然として困難に直面している。
本稿では,数学的問題解決能力を高めるための新しい手法BEATSを提案する。
論文 参考訳(メタデータ) (2024-09-26T15:47:42Z) - LLaMa-SciQ: An Educational Chatbot for Answering Science MCQ [0.0]
大規模言語モデル(LLM)は、数学的な推論を必要とするタスク、特に多重選択質問(MCQ)にしばしば苦労する。
我々は,STEM分野におけるMCQの解決と理解を支援するLLaMa-SciQを開発した。
数学的推論では、LLaMa-SciQはGSM8kデータセットで74.5%、MATHデータセットで30%の精度を達成した。
論文 参考訳(メタデータ) (2024-09-25T09:41:46Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。
Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。
我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文 参考訳(メタデータ) (2024-07-11T09:56:51Z) - Synthetic Multimodal Question Generation [60.33494376081317]
MMRAG(Multimodal Retrieval Augmented Generation)は,マルチモーダル文書に対する質問応答のための強力な手法である。
マルチモーダル文書から直接質問と回答のペアを生成する合成データ生成フレームワークSMMQGを提案する。
SMMQGを用いて、ウィキペディア文書上の1024の質問のMMRAGデータセットを生成し、それを用いて最先端のモデルを評価する。
論文 参考訳(メタデータ) (2024-07-02T12:57:42Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化(英: Uncertainty Quantification、UQ)は、機械学習(ML)アプリケーションにおいて重要なコンポーネントである。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、9つのタスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も有望なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs [38.127313175508746]
MathGenieは、小規模の問題解決データセットから多様で信頼性の高い数学問題を生成する新しい方法である。
7Bから70Bまでの各種事前学習モデルについて, 提案手法の有効性を検証するために, 新たなキュレートデータを用いて訓練を行った。
MathGenieLM-InternLM2はGSM8Kで87.7%、MATHで55.7%の精度を達成し、オープンソース言語モデルで最高のスコアを確保している。
論文 参考訳(メタデータ) (2024-02-26T07:17:25Z) - MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical
Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。
本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。
このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文 参考訳(メタデータ) (2023-10-05T17:52:09Z) - Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For
Large Language Models [23.344490944210456]
515Benchは,大規模言語モデル(LLM)の問題解決能力を評価するための,より困難なベンチマークデータセットである。
高度に競争力のあるIIT-Advanced試験から, 数学, 物理, 化学の課題を解き明かす。
さまざまなオープンソースおよびプロプライエタリなモデルに対する評価から,自己整合性や自己抑制性,チェーン・オブ・フォアリングといったテクニックを使用したとしても,最高のパフォーマンスは40%未満であることが分かる。
論文 参考訳(メタデータ) (2023-05-24T11:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。