論文の概要: Augmenting Math Word Problems via Iterative Question Composing
- arxiv url: http://arxiv.org/abs/2401.09003v2
- Date: Sat, 20 Jan 2024 12:43:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 19:05:05.326051
- Title: Augmenting Math Word Problems via Iterative Question Composing
- Title(参考訳): 反復質問合成による数学語問題の拡張
- Authors: Haoxiong Liu, Andrew Chi-Chih Yao
- Abstract要約: 本稿では,Webデータと合成質問応答ペアを組み合わせたMMIQCデータセットを提案する。
異なるモデルサイズでは、MMIQCで微調整されたモデルは、MATHテストセットの明確なマージンで、一貫してそのモデルより優れている。
- 参考スコア(独自算出の注目度): 1.223779595809275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent progress in improving the mathematical reasoning ability of
large language models(LLMs), solving competition-level math problems without
the use of external tools remains challenging for open-source LLMs. In this
work, we introduce the MMIQC dataset, a mixture of processed web data and
synthetic question-response pairs, to equip base models with better
mathematical reasoning skills. In different model sizes, the models fine-tuned
on MMIQC consistently outperform their counterparts by a clear margin on MATH
test set. Notably, DeepSeek-67B-MMIQC achieves a 41.0% accuracy, 4.2% higher
than the previous open-source SOTA. Our experiments also show that a large part
of the improvement can be attributed to our novel augmentation method
IQC(Iterative Question Composing), where we iteratively ask an LLM to compose
new questions from the given seed problems and do rejection sampling from
another LLM. MMIQC has now been released on
https://huggingface.co/datasets/Vivacem/MMIQC.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)の数学的推論能力の向上が進んでいるが,外部ツールを使わずに競合レベルの数学問題を解くことは,オープンソースのLCMでは難しい課題である。
本研究では,Webデータと合成質問応答ペアを組み合わせたMMIQCデータセットを導入し,より優れた数学的推論技術を備えたベースモデルを提案する。
異なるモデルサイズでは、MMIQCで微調整されたモデルは、MATHテストセットの明確なマージンで、一貫してそのモデルより優れている。
特にDeepSeek-67B-MMIQCは41.0%の精度で、以前のオープンソースSOTAよりも4.2%高い。
また,本実験では,改良の大部分は,与えられたシード問題から新たな質問を作成し,別のllmから拒絶サンプリングを行うために,反復的にllmを依頼する新しい拡張法iqc(イテレーティブ・クイック・コンポジション)に起因していることを示す。
MMIQCはhttps://huggingface.co/datasets/Vivacem/MMIQCでリリースされた。
関連論文リスト
- MathFimer: Enhancing Mathematical Reasoning by Expanding Reasoning Steps through Fill-in-the-Middle Task [49.355810887265925]
数学的推論ステップ拡張のための新しいフレームワークであるMathFimerを紹介する。
我々は、慎重にキュレートしたNuminaMath-FIMデータセットに基づいて、特殊モデルMathFimer-7Bを開発した。
次に、これらのモデルを適用して、解鎖に詳細な中間ステップを挿入することで、既存の数学的推論データセットを強化する。
論文 参考訳(メタデータ) (2025-02-17T11:22:24Z) - Learning by Analogy: Enhancing Few-Shot Prompting for Math Word Problem Solving with Computational Graph-Based Retrieval [22.865124583257987]
同様に構造化された質問の類似性によって,大規模言語モデルの問題解決能力が向上することを示す。
具体的には、与えられた質問に類似した計算グラフを持つ問題の検索を頼りに、プロンプトの見本として機能する。
6つの数学単語問題データセットに対する実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-11-25T15:01:25Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - BEATS: Optimizing LLM Mathematical Capabilities with BackVerify and Adaptive Disambiguate based Efficient Tree Search [22.672130194493793]
大規模言語モデル(LLM)は、幅広いタスクやドメインで例外的なパフォーマンスを示している。
彼らは数学の厳密で論理的な性質のため、数学の問題を解くのに依然として困難に直面している。
本稿では,数学的問題解決能力を高めるための新しい手法BEATSを提案する。
論文 参考訳(メタデータ) (2024-09-26T15:47:42Z) - LLaMa-SciQ: An Educational Chatbot for Answering Science MCQ [0.0]
大規模言語モデル(LLM)は、数学的な推論を必要とするタスク、特に多重選択質問(MCQ)にしばしば苦労する。
我々は,STEM分野におけるMCQの解決と理解を支援するLLaMa-SciQを開発した。
数学的推論では、LLaMa-SciQはGSM8kデータセットで74.5%、MATHデータセットで30%の精度を達成した。
論文 参考訳(メタデータ) (2024-09-25T09:41:46Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。
Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。
我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文 参考訳(メタデータ) (2024-07-11T09:56:51Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs [38.127313175508746]
MathGenieは、小規模の問題解決データセットから多様で信頼性の高い数学問題を生成する新しい方法である。
7Bから70Bまでの各種事前学習モデルについて, 提案手法の有効性を検証するために, 新たなキュレートデータを用いて訓練を行った。
MathGenieLM-InternLM2はGSM8Kで87.7%、MATHで55.7%の精度を達成し、オープンソース言語モデルで最高のスコアを確保している。
論文 参考訳(メタデータ) (2024-02-26T07:17:25Z) - GeoEval: Benchmark for Evaluating LLMs and Multi-Modal Models on Geometry Problem-Solving [40.46491587796371]
我々はGeoEvalベンチマーク、2,000問題の主要サブセット、750問題サブセット、2000問題の追加サブセット、300問題のハードサブセットを含む包括的コレクションを紹介する。
これらのサブセットにおける10個のLLMとMMの評価から、WizardMathモデルは、主サブセットでは55.67%の精度で、ハードサブセットでは6.00%の精度しか達成していないことが分かる。
論文 参考訳(メタデータ) (2024-02-15T16:59:41Z) - Logic-Guided Data Augmentation and Regularization for Consistent
Question Answering [55.05667583529711]
本稿では,比較質問に対する応答の精度と整合性を改善する問題に対処する。
提案手法は論理的および言語的知識を利用してラベル付きトレーニングデータを増強し,一貫性に基づく正規化器を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2020-04-21T17:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。