論文の概要: ClozeMath: Improving Mathematical Reasoning in Language Models by Learning to Fill Equations
- arxiv url: http://arxiv.org/abs/2506.03763v1
- Date: Wed, 04 Jun 2025 09:27:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.264326
- Title: ClozeMath: Improving Mathematical Reasoning in Language Models by Learning to Fill Equations
- Title(参考訳): ClozeMath: 方程式を満たす学習による言語モデルにおける数学的推論の改善
- Authors: Quang Hieu Pham, Thuy Duong Nguyen, Tung Pham, Anh Tuan Luu, Dat Quoc Nguyen,
- Abstract要約: そこで我々はClozeMathという新しい手法を提案し,数学的推論のための大規模言語モデルを微調整する。
私たちのClozeMathは、人間の学習で使用されるクローズエクササイズに似た、与えられたソリューションからマスクされた方程式を予測するテキスト入力タスクを含んでいます。
GSM8K、MATH、GSM-Symbolicの実験では、CloseMathはパフォーマンスとロバスト性において強力なベースラインであるMasked Thoughtを上回っている。
- 参考スコア(独自算出の注目度): 29.51572057789961
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The capabilities of large language models (LLMs) have been enhanced by training on data that reflects human thought processes, such as the Chain-of-Thought format. However, evidence suggests that the conventional scheme of next-word prediction may not fully capture how humans learn to think. Inspired by how humans generalize mathematical reasoning, we propose a new approach named ClozeMath to fine-tune LLMs for mathematical reasoning. Our ClozeMath involves a text-infilling task that predicts masked equations from a given solution, analogous to cloze exercises used in human learning. Experiments on GSM8K, MATH, and GSM-Symbolic show that ClozeMath surpasses the strong baseline Masked Thought in performance and robustness, with two test-time scaling decoding algorithms, Beam Search and Chain-of-Thought decoding. Additionally, we conduct an ablation study to analyze the effects of various architectural and implementation choices on our approach.
- Abstract(参考訳): 大規模言語モデル(LLM)の能力は、Chain-of-Thoughtフォーマットのような人間の思考過程を反映したデータのトレーニングによって強化されている。
しかし、従来の次の単語予測方式は、人間がどのように考えるかを完全には捉えていないことが証拠として示唆されている。
ヒトが数学的推論を一般化する方法に触発されて、数学的推論のための微調整LDMのためのClozeMathという新しいアプローチを提案する。
私たちのClozeMathは、人間の学習で使用されるクローズエクササイズに似た、与えられたソリューションからマスクされた方程式を予測するテキスト入力タスクを含んでいます。
GSM8K、MATH、GSM-Symbolicの実験では、CloseMathはパフォーマンスとロバスト性において強力なベースラインであるMasked Thoughtを超えており、2つのテスト時間スケーリングデコーディングアルゴリズムであるビームサーチとチェーン・オブ・ソートデコーディングが使用されている。
さらに,さまざまなアーキテクチャおよび実装の選択がアプローチに与える影響を分析するために,アブレーション研究を実施している。
関連論文リスト
- MathFimer: Enhancing Mathematical Reasoning by Expanding Reasoning Steps through Fill-in-the-Middle Task [49.355810887265925]
数学的推論ステップ拡張のための新しいフレームワークであるMathFimerを紹介する。
我々は、慎重にキュレートしたNuminaMath-FIMデータセットに基づいて、特殊モデルMathFimer-7Bを開発した。
次に、これらのモデルを適用して、解鎖に詳細な中間ステップを挿入することで、既存の数学的推論データセットを強化する。
論文 参考訳(メタデータ) (2025-02-17T11:22:24Z) - MathCoder2: Better Math Reasoning from Continued Pretraining on Model-translated Mathematical Code [38.127313175508746]
本稿では, 継続事前学習のための推論ステップを伴って, 数学的コードを生成する新しい手法を提案する。
私たちのアプローチは、高品質な数学的継続事前学習データセットの構築から始まります。
生成されたコードを推論ステップ毎に適用すると、ペアの自然言語推論ステップとその対応するコードからなるデータが得られる。
論文 参考訳(メタデータ) (2024-10-10T17:58:40Z) - MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。
しかし、数学的な問題を解く能力は依然として不十分である。
高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:42:59Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Brain-Inspired Two-Stage Approach: Enhancing Mathematical Reasoning by
Imitating Human Thought Processes [6.512667145063511]
本稿では,人間の思考過程を模倣し,数学的推論能力を高める新しい手法であるBrainを提案する。
まず,コードLLaMA 7Bをベースとしたモデルと比較し,SOTAの性能を評価する。
第二に、計画が自然言語、コード、形式言語から明示的に抽出できることが分かる。
論文 参考訳(メタデータ) (2024-02-23T17:40:31Z) - InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning [98.53491178426492]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。
我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。
我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文 参考訳(メタデータ) (2024-02-09T11:22:08Z) - ATHENA: Mathematical Reasoning with Thought Expansion [3.3727470465639833]
ATHENA(Attention-based Thought Expansion Network Architecture)を導入し、現実の実践の課題に取り組む。
思考拡大は、前段から導かれる算数表現の思考を担っている候補を連続的に生成する。
論文 参考訳(メタデータ) (2023-11-02T07:03:25Z) - JiuZhang: A Chinese Pre-trained Language Model for Mathematical Problem
Understanding [74.12405417718054]
本稿では,中国初の数学的事前学習言語モデル(PLM)を提示することにより,機械の数学的知性向上を目指す。
他の標準のNLPタスクとは異なり、数学的テキストは問題文に数学的用語、記号、公式を含むため理解が難しい。
基礎課程と上級課程の両方からなる数学PLMの学習を改善するための新しいカリキュラム事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-06-13T17:03:52Z) - Enhancing Neural Mathematical Reasoning by Abductive Combination with
Symbolic Library [5.339286921277565]
本稿では,人的知識でプログラムされた離散的なシステムと帰納的な組み合わせによって,いくつかの能力が達成できることを実証する。
数学的推論データセットでは、最近提案された帰納的学習フレームワークを採用し、トランスフォーマーモデルと記号数学ライブラリを組み合わせたABL-Symアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-28T04:19:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。