Fugu-MT 論文翻訳(概要): Llemma: An Open Language Model For Mathematics

論文の概要: Llemma: An Open Language Model For Mathematics

arxiv url: http://arxiv.org/abs/2310.10631v3
Date: Fri, 15 Mar 2024 19:14:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 03:22:50.633983
Title: Llemma: An Open Language Model For Mathematics
Title（参考訳）: Llemma: 数学のためのオープン言語モデル
Authors: Zhangir Azerbayev, Hailey Schoelkopf, Keiran Paster, Marco Dos Santos, Stephen McAleer, Albert Q. Jiang, Jia Deng, Stella Biderman, Sean Welleck,
Abstract要約: 数学のための大きな言語モデルであるLlemmaを紹介します。 MATHベンチマークでは、Llemmaはすべての既知のオープンベースモデルより優れている。レムマは道具の使用と公式な定理を証明することができるが、それ以上の微調整は行わない。
参考スコア（独自算出の注目度）: 46.557804525919785
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present Llemma, a large language model for mathematics. We continue pretraining Code Llama on the Proof-Pile-2, a mixture of scientific papers, web data containing mathematics, and mathematical code, yielding Llemma. On the MATH benchmark Llemma outperforms all known open base models, as well as the unreleased Minerva model suite on an equi-parameter basis. Moreover, Llemma is capable of tool use and formal theorem proving without any further finetuning. We openly release all artifacts, including 7 billion and 34 billion parameter models, the Proof-Pile-2, and code to replicate our experiments.
Abstract（参考訳）: 数学のための大きな言語モデルであるLlemmaを紹介します。我々は、Proof-Pile-2(科学論文、数学を含むWebデータ、数学的コード)でCode Llamaを事前訓練し、Llemmaを生成する。 MATHベンチマークでは、Llemmaはすべての既知のオープンベースモデル、および未リリースのMinervaモデルスイートを均等に上回る。さらに、レムマは道具の使用や公式な定理の証明をこれ以上微調整することなく行うことができる。 70億と34億のパラメータモデル、Proof-Pile-2、実験を再現するコードを含む、すべてのアーティファクトをオープンにリリースします。

関連論文リスト

Proof2Hybrid: Automatic Mathematical Benchmark Synthesis for Proof-Centric Problems [9.041749463376599]
本稿では,自然言語の数学的コーパスから高品質な証明中心ベンチマークを合成するフレームワークProof2Hybridを提案する。我々のフレームワークとベンチマークは、AIシステムの数学的インテリジェンスに関する、より深い研究の波の道を開く。
論文参考訳（メタデータ） (2025-08-04T08:59:36Z)
Automating Mathematical Proof Generation Using Large Language Model Agents and Knowledge Graphs [2.534053759586253]
KGプロデューサは、数学的証明の構築と形式化のために汎用LLMを拡張している。汎用LLMはKG-Proverと組み合わせてミニF2Fテストで最大21%向上した。 KG-ProverはProofNetの2-11%、miniF2F-test、MUSTARDデータセットなど、さらなるスケーリングなしで一貫した改善を実現している。
論文参考訳（メタデータ） (2025-02-04T07:17:34Z)
LemmaHead: RAG Assisted Proof Generation Using Large Language Models [0.0]
我々は、関連する数学的文脈でモデルにクエリを補足する知識ベースであるLemmaHeadを開発した。数学的推論におけるモデルの性能を測定するため、我々のテストパラダイムは自動定理証明の課題に焦点を当てている。
論文参考訳（メタデータ） (2025-01-27T05:46:06Z)
MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark [82.64129627675123]
MathBenchは、大規模言語モデルの数学的能力を厳格に評価する新しいベンチマークである。 MathBenchは幅広い数学の分野にまたがっており、理論的な理解と実践的な問題解決のスキルの両方を詳細に評価している。
論文参考訳（メタデータ） (2024-05-20T17:52:29Z)
Brain-Inspired Two-Stage Approach: Enhancing Mathematical Reasoning by Imitating Human Thought Processes [6.512667145063511]
本稿では,人間の思考過程を模倣し,数学的推論能力を高める新しい手法であるBrainを提案する。まず,コードLLaMA 7Bをベースとしたモデルと比較し,SOTAの性能を評価する。第二に、計画が自然言語、コード、形式言語から明示的に抽出できることが分かる。
論文参考訳（メタデータ） (2024-02-23T17:40:31Z)
InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning [98.53491178426492]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文参考訳（メタデータ） (2024-02-09T11:22:08Z)
MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文参考訳（メタデータ） (2023-10-05T17:52:09Z)
MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models [91.66694225955872]
数学的推論を専門とする微調整言語モデルであるMetaMathを提案する。具体的には、余分な知識を伴わずに複数の視点から質問を書き換えることで、数学的質問をブートストラップすることから始める。私たちは、すべてのMetaMathQAデータセット、異なるモデルサイズを持つMetaMathモデル、パブリック使用のためのトレーニングコードをリリースします。
論文参考訳（メタデータ） (2023-09-21T17:45:42Z)
WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct [128.89645483139236]
本稿では,Llama-2の数学的推論能力を向上するWizardMathを提案する。 GSM8kではChatGPT-3.5, Claude Instant-1, PaLM-2, Minervaを上回り, 同時にMATHでは Text-davinci, PaLM-1, GPT-3 を上回ります。
論文参考訳（メタデータ） (2023-08-18T14:23:21Z)
ProofNet: Autoformalizing and Formally Proving Undergraduate-Level Mathematics [7.607254619341369]
本稿では,学部レベルの数学の自己形式化と形式証明のためのベンチマークであるProofNetを紹介する。 ProofNetベンチマークは371の例で構成され、それぞれがLean 3.0の正式な定理文で構成されている。テキスト内学習による文の自動書式化のベースライン結果について報告する。
論文参考訳（メタデータ） (2023-02-24T03:28:46Z)
Towards a Mathematics Formalisation Assistant using Large Language Models [5.485439959027125]
リーン定理証明器の形式化を支援するために,大規模な言語モデル(Codex)の能力について検討する。コーデックスは、短い数学的ステートメントを120ドルの定理ステートメントに対して75%近い精度でアンダーグレードレベルで定式化することができる。新たなプロンプト戦略により、コーデックスはこれらの証明を自然言語で定式化することができ、12のコーデックスのうち少なくとも1つの完備化は、完全な証明に容易に修正できることが示される。
論文参考訳（メタデータ） (2022-11-14T16:52:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。