論文の概要: InternLM-Math: Open Math Large Language Models Toward Verifiable
Reasoning
- arxiv url: http://arxiv.org/abs/2402.06332v1
- Date: Fri, 9 Feb 2024 11:22:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 17:19:19.736376
- Title: InternLM-Math: Open Math Large Language Models Toward Verifiable
Reasoning
- Title(参考訳): InternLM-Math: 検証可能な推論に向けたオープン数学大言語モデル
- Authors: Huaiyuan Ying, Shuo Zhang, Linyang Li, Zhejian Zhou, Yunfan Shao,
Zhaoye Fei, Yichuan Ma, Jiawei Hong, Kuikun Liu, Ziyi Wang, Yudong Wang,
Zijian Wu, Shuaibin Li, Fengzhe Zhou, Hongwei Liu, Songyang Zhang, Wenwei
Zhang, Hang Yan, Xipeng Qiu, Jiayu Wang, Kai Chen, Dahua Lin
- Abstract要約: InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。
我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。
我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
- 参考スコア(独自算出の注目度): 99.8200914526817
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The math abilities of large language models can represent their abstract
reasoning ability. In this paper, we introduce and open-source our math
reasoning LLMs InternLM-Math which is continue pre-trained from InternLM2. We
unify chain-of-thought reasoning, reward modeling, formal reasoning, data
augmentation, and code interpreter in a unified seq2seq format and supervise
our model to be a versatile math reasoner, verifier, prover, and augmenter.
These abilities can be used to develop the next math LLMs or self-iteration.
InternLM-Math obtains open-sourced state-of-the-art performance under the
setting of in-context learning, supervised fine-tuning, and code-assisted
reasoning in various informal and formal benchmarks including GSM8K, MATH,
Hungary math exam, MathBench-ZH, and MiniF2F. Our pre-trained model achieves
30.3 on the MiniF2F test set without fine-tuning. We further explore how to use
LEAN to solve math problems and study its performance under the setting of
multi-task learning which shows the possibility of using LEAN as a unified
platform for solving and proving in math. Our models, codes, and data are
released at \url{https://github.com/InternLM/InternLM-Math}.
- Abstract(参考訳): 大きな言語モデルの数学能力は、その抽象的推論能力を表すことができる。
本稿では, InternLM2 の事前学習を継続する LLMs InternLM-Math をオープンソースとして導入する。
我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを統一されたSeq2seqフォーマットで統一し、我々のモデルを汎用数学推論器、検証器、証明器、拡張器として監督する。
これらの能力は次の数学 LLM や自己定位の開発に利用できる。
InternLM-Mathは、GSM8K、MATH、ハンガリー数学試験、MathBench-ZH、MiniF2Fなどの非公式および正式なベンチマークにおいて、コンテキスト内学習、教師付き微調整、コードアシスト推論の設定の下で、オープンソースの最先端性能を得る。
我々の事前学習モデルは微調整なしでMiniF2Fテストセットで30.3を達成する。
さらに、LEANを用いて数学の問題を解き、その性能をマルチタスク学習の設定下で研究し、LEANを数学の解法と証明のための統一プラットフォームとして用いる可能性を示す。
我々のモデル、コード、データは \url{https://github.com/InternLM/InternLM-Math} でリリースされます。
関連論文リスト
- Math Neurosurgery: Isolating Language Models' Math Reasoning Abilities Using Only Forward Passes [10.314228434999924]
本稿では,Large Language Model (LLM)モデルにおいて,数学固有のパラメータを分離する手法であるMathNeuroを紹介した。
MathNeuroは、LLMの一般的な言語能力を破壊することなく、LLMの数学推論能力を削除する。
MathNeuro氏は、将来の研究が数学固有のパラメータに介入する可能性を強調している。
論文 参考訳(メタデータ) (2024-10-22T12:00:58Z) - Is Your Model Really A Good Math Reasoner? Evaluating Mathematical Reasoning with Checklist [46.670206614087334]
モデルが本当に問題を理解しているなら、さまざまなタスクにまたがって堅牢に適用されるべきである、と私たちは主張する。
MathCheckはタスクの一般化と推論をテストするためのよく設計されたチェックリストである。
MathCheckは真の数学的能力をよく反映し、数学的知性をより線形に表現する。
論文 参考訳(メタデータ) (2024-07-11T17:58:58Z) - MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark [82.64129627675123]
MathBenchは、大規模言語モデルの数学的能力を厳格に評価する新しいベンチマークである。
MathBenchは幅広い数学の分野にまたがっており、理論的な理解と実践的な問題解決のスキルの両方を詳細に評価している。
論文 参考訳(メタデータ) (2024-05-20T17:52:29Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - MATHSENSEI: A Tool-Augmented Large Language Model for Mathematical Reasoning [2.9104279358536647]
数学的推論のためのツール強化された大規模言語モデルであるMathSenseiを提案する。
ツールの補完的な利点として、知識検索(Bing Web Search)、プログラムジェネレータ+エグゼキュータ(Python)、記号方程式ソルバ(Wolfram-Alpha API)について検討する。
論文 参考訳(メタデータ) (2024-02-27T05:50:35Z) - Large Language Models for Mathematicians [53.27302720305432]
大規模言語モデル(LLM)は、汎用言語理解、特に高品質なテキストやコンピュータコードを生成する能力に多大な関心を集めている。
本稿では,プロの数学者をどの程度支援できるかについて論じる。
論文 参考訳(メタデータ) (2023-12-07T18:59:29Z) - Llemma: An Open Language Model For Mathematics [46.557804525919785]
数学のための大きな言語モデルであるLlemmaを紹介します。
MATHベンチマークでは、Llemmaはすべての既知のオープンベースモデルより優れている。
レムマは道具の使用と公式な定理を証明することができるが、それ以上の微調整は行わない。
論文 参考訳(メタデータ) (2023-10-16T17:54:07Z) - MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical
Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。
本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。
このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文 参考訳(メタデータ) (2023-10-05T17:52:09Z) - WizardMath: Empowering Mathematical Reasoning for Large Language Models
via Reinforced Evol-Instruct [128.89645483139236]
本稿では,Llama-2の数学的推論能力を向上するWizardMathを提案する。
GSM8kではChatGPT-3.5, Claude Instant-1, PaLM-2, Minervaを上回り, 同時にMATHでは Text-davinci, PaLM-1, GPT-3 を上回ります。
論文 参考訳(メタデータ) (2023-08-18T14:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。