Fugu-MT 論文翻訳(概要): MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible Pipeline

論文の概要: MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible Pipeline

arxiv url: http://arxiv.org/abs/2401.08190v3
Date: Wed, 21 Feb 2024 20:28:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-23 18:03:37.708709
Title: MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible Pipeline
Title（参考訳）: MARIO: MAth Reasoning with Code Interpreter Output -- 再現可能なパイプライン
Authors: Minpeng Liao, Wei Luo, Chengxi Li, Jing Wu, Kai Fan
Abstract要約: 我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
参考スコア（独自算出の注目度）: 12.186691561822256
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have seen considerable advancements in natural language understanding tasks, yet there remains a gap to bridge before attaining true artificial general intelligence, especially concerning shortcomings in mathematical reasoning capabilities. We postulate that the inherent nature of LLM training, which focuses on predicting probabilities of next token, presents challenges in effectively modeling mathematical reasoning that demands exact calculations, both from data-driven and theoretical standpoints. In this paper, we address this challenge by enriching the data landscape and introducing a novel math dataset, enhanced with a capability to utilize a Python code interpreter. This dataset is derived from GSM8K and MATH and has been further refined through a combination of GPT-4 annotations, human review, and self-training processes, where the errors in the original GSM8K training set have been fixed. Additionally, we propose a tentative, easily replicable protocol for the fine-tuning of math-specific LLMs, which has led to a significant improvement in the performance of a 7B-parameter LLM on the GSM8K and MATH datasets. We are committed to advancing the field of mathematical reasoning in LLMs and, to that end, we have made source code for data generation / training / inference, and the model checkpoints publicly available at \url{https://github.com/MARIO-Math-Reasoning/MARIO}. We hope this will facilitate further research and development within the community.
Abstract（参考訳）: 大規模言語モデル(llm)は自然言語理解タスクにおいてかなりの進歩を遂げてきたが、真の人工知能に到達する前には、特に数学的推論能力の欠点に関して橋渡しのギャップが残っている。我々は、次のトークンの確率を予測することに焦点を当てたLLMトレーニングの本質的な性質が、データ駆動と理論の両方の観点から正確な計算を必要とする数学的推論を効果的にモデル化する上での課題を提起する。本稿では,データランドスケープを豊かにし,pythonコードインタプリタを活用した新しい数学データセットを導入することで,この課題に対処する。このデータセットはGSM8KとMATHから派生したもので、オリジナルのGSM8Kトレーニングセットのエラーが修正されたGPT-4アノテーション、ヒューマンレビュー、自己学習プロセスの組み合わせによってさらに洗練されている。さらに,GSM8KおよびMATHデータセット上での 7B パラメータ LLM の性能向上に寄与する,数学固有の LLM の微調整のための仮的かつ容易に複製可能なプロトコルを提案する。 LLMにおける数学的推論の分野を推し進めることにコミットしており、最終的には、データ生成/トレーニング/推論のためのソースコードを作成し、モデルチェックポイントは、 \url{https://github.com/MARIO-Math-Reasoning/MARIO}で公開しています。これがコミュニティ内のさらなる研究と開発を促進することを願っています。

関連論文リスト

Synthesis by Design: Controlled Data Generation via Structural Guidance [7.938713951512933]
数学的推論から生成した問題解決コードを用いて構造情報を抽出する。提案手法は,ラベル付き中間ステップと6.1K-problemベンチマークで39Kの問題を発生させる。ベンチマークの結果,推論長の増加に伴いモデル性能が低下することが示された。
論文参考訳（メタデータ） (2025-06-09T11:38:23Z)
Program Semantic Inequivalence Game with Large Language Models [10.358176296850639]
大きな言語モデル(LLM)は、日々のコーディングタスクにおいて強力なパフォーマンスを達成することができるが、プログラムのセマンティクスに関する非自明な推論を必要とする複雑なタスクでは失敗する可能性がある。本研究では,意味的不等価ゲームSInQに基づいて,コード推論学習データを合成的に生成する手法について検討する。この設定により、無限の計算資源の限界における自己再生による理論的に無制限な改善が可能であることを証明した。
論文参考訳（メタデータ） (2025-05-02T20:03:35Z)
Embedding Domain-Specific Knowledge from LLMs into the Feature Engineering Pipeline [0.0]
本稿では,Large Language Models (LLMs) を,データセットに知識を加えるための初期機能構築ステップとして用いることを提案する。その結果、進化はより速く収束し、計算資源を節約できることがわかった。
論文参考訳（メタデータ） (2025-03-27T04:48:58Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
Reliable Reasoning Beyond Natural Language [0.047888359248129786]
大きな言語モデル(LLM)は、しばしば、確実に柔軟に推論する能力の限界を示す。本稿では,問題文から全ての関連情報を論理コード文として抽出し,エンコードする手法を提案する。次に、論理型プログラミング言語(Prolog)を用いて、明示的な推論の反復的な計算を行う。
論文参考訳（メタデータ） (2024-07-16T04:34:18Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models [110.45794710162241]
既存の研究は、事前学習のための大規模な数学関連のテキストを収集したり、巨大な数学問題を合成するために強力なLLMに依存している。そこで本研究では,数学問題合成のための小さなLLMを効率的に学習し,高品質な事前学習データを効率的に生成する手法を提案する。我々は、GPT-4 API 9.3k回の呼び出しと4.6Bデータの事前トレーニングのみを必要とする、JuZhang3.0モデルの事前トレーニングに600万の数学問題を合成する。
論文参考訳（メタデータ） (2024-05-23T09:43:19Z)
ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline [42.61538071832468]
大規模言語モデル(LLM)は、人間の言語の優れた習得を示すが、数学的な問題解決を必要とする現実世界のアプリケーションでは依然として苦戦している。 LLMアライメントのフィードバック学習段階における課題に対処する自己批判パイプラインを調整します。
論文参考訳（メタデータ） (2024-04-03T17:51:18Z)
An Empirical Study of Data Ability Boundary in LLMs' Math Reasoning [13.11991777772918]
大規模言語モデル(LLM)は、数学推論タスクの創発的な能力を示している。本稿では,教師付きデータの一般的なデータ戦略を探求し,数学推論能力の最適化と拡張を支援することを目的とする。
論文参考訳（メタデータ） (2024-02-23T17:38:43Z)
MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文参考訳（メタデータ） (2023-10-24T17:59:20Z)
Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。 MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文参考訳（メタデータ） (2023-09-13T04:06:47Z)
CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。学習方法は,「フリーランチ」仮説の主張を考察する。データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文参考訳（メタデータ） (2023-05-03T17:55:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。