論文の概要: KwaiYiiMath: Technical Report
- arxiv url: http://arxiv.org/abs/2310.07488v2
- Date: Thu, 19 Oct 2023 12:34:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 18:49:37.118804
- Title: KwaiYiiMath: Technical Report
- Title(参考訳): KwaiYiiMath:テクニカルレポート
- Authors: Jiayi Fu, Lei Lin, Xiaoyang Gao, Pengli Liu, Zhengzong Chen, Zhirui
Yang, Shengnan Zhang, Xue Zheng, Yan Li, Yuliang Liu, Xucheng Ye, Yiqiao
Liao, Chao Liao, Bin Chen, Chengru Song, Junchen Wan, Zijia Lin, Fuzheng
Zhang, Zhongyuan Wang, Di Zhang, Kun Gai
- Abstract要約: 我々は KwaiYiiBase1 の数学的推論能力を高める KwaiYiiMath を紹介する。
また, モデルが生成した問題解決過程の正しさを評価するため, 小型の中国小学校数学テストセット(KMath)を構築した。
- 参考スコア(独自算出の注目度): 32.26926431983553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large language models (LLMs) have demonstrated
remarkable abilities in handling a variety of natural language processing (NLP)
downstream tasks, even on mathematical tasks requiring multi-step reasoning. In
this report, we introduce the KwaiYiiMath which enhances the mathematical
reasoning abilities of KwaiYiiBase1, by applying Supervised Fine-Tuning (SFT)
and Reinforced Learning from Human Feedback (RLHF), including on both English
and Chinese mathematical tasks. Meanwhile, we also constructed a small-scale
Chinese primary school mathematics test set (named KMath), consisting of 188
examples to evaluate the correctness of the problem-solving process generated
by the models. Empirical studies demonstrate that KwaiYiiMath can achieve
state-of-the-art (SOTA) performance on GSM8k, CMath, and KMath compared with
the similar size models, respectively.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、多段階推論を必要とする数学的タスクであっても、様々な自然言語処理(NLP)下流タスクを扱う際、顕著な能力を示している。
本報告では,英語と中国語の数学的タスクを含む,スーパービジョンファインチューニング(SFT)と強化学習(RLHF)を適用することで,KwaiYiiBase1の数学的推論能力を向上するKwaiYiiMathを紹介する。
また, モデルが生成した問題解決過程の正しさを評価するために, 188例からなる小型の中国小学校数学テストセット(KMath)を構築した。
実験により、KwaiYiiMathはGSM8k, CMath, KMathの最先端(SOTA)性能を同様のサイズモデルと比較できることが示された。
関連論文リスト
- MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark [82.64129627675123]
MathBenchは、大規模言語モデルの数学的能力を厳格に評価する新しいベンチマークである。
MathBenchは幅広い数学の分野にまたがっており、理論的な理解と実践的な問題解決のスキルの両方を詳細に評価している。
論文 参考訳(メタデータ) (2024-05-20T17:52:29Z) - Mathify: Evaluating Large Language Models on Mathematical Problem Solving Tasks [34.09857430966818]
我々は,11番目と12番目の標準数学 NCERT 教科書から得られた数学データセット "MathQuest" を紹介する。
LLaMA-2, WizardMath, MAmmoTHの3つの大きな言語モデルを用いた微調整実験を行った。
この3つのモデルのうち,MAmmoTH-13Bが最も熟練したモデルとして登場し,提示された数理問題の解法において,最高レベルの能力を達成した。
論文 参考訳(メタデータ) (2024-04-19T08:45:42Z) - FineMath: A Fine-Grained Mathematical Evaluation Benchmark for Chinese Large Language Models [44.63505885248145]
FineMathは、中国語大言語モデル(LLM)を評価するための詳細な数学的評価ベンチマークデータセットである。
FineMathは、小学校数学で教えられる主要な数学的概念をカバーし、数学用語の問題の17のカテゴリに分けられる。
数学の単語問題のうち17のカテゴリは、これらの問題を解決するために必要な推論ステップの数に応じて、難易度を手動でアノテートする。
論文 参考訳(メタデータ) (2024-03-12T15:32:39Z) - MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。
しかし、数学的な問題を解く能力は依然として不十分である。
高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:42:59Z) - InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning [98.53491178426492]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。
我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。
我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文 参考訳(メタデータ) (2024-02-09T11:22:08Z) - JiuZhang 2.0: A Unified Chinese Pre-trained Language Model for
Multi-task Mathematical Problem Solving [77.51817534090789]
マルチタスク数学問題の解法を専門とする統一中国語 PLM である textbfJiuZhang2.0 を提案する。
我々の考えは、中規模のモデルを維持し、マルチタスク設定におけるモデル容量を改善するために、Emphcross-taskの知識共有を利用することである。
論文 参考訳(メタデータ) (2023-06-19T15:45:36Z) - UniGeo: Unifying Geometry Logical Reasoning via Reformulating
Mathematical Expression [127.68780714438103]
計算と証明の2つの主要な幾何学問題は、通常2つの特定のタスクとして扱われる。
我々は4,998の計算問題と9,543の証明問題を含むUniGeoという大規模統一幾何問題ベンチマークを構築した。
また,複数タスクの幾何変換フレームワークであるGeoformerを提案し,計算と証明を同時に行う。
論文 参考訳(メタデータ) (2022-12-06T04:37:51Z) - JiuZhang: A Chinese Pre-trained Language Model for Mathematical Problem
Understanding [74.12405417718054]
本稿では,中国初の数学的事前学習言語モデル(PLM)を提示することにより,機械の数学的知性向上を目指す。
他の標準のNLPタスクとは異なり、数学的テキストは問題文に数学的用語、記号、公式を含むため理解が難しい。
基礎課程と上級課程の両方からなる数学PLMの学習を改善するための新しいカリキュラム事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-06-13T17:03:52Z) - Enhancing Neural Mathematical Reasoning by Abductive Combination with
Symbolic Library [5.339286921277565]
本稿では,人的知識でプログラムされた離散的なシステムと帰納的な組み合わせによって,いくつかの能力が達成できることを実証する。
数学的推論データセットでは、最近提案された帰納的学習フレームワークを採用し、トランスフォーマーモデルと記号数学ライブラリを組み合わせたABL-Symアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-28T04:19:39Z) - Learning to Match Mathematical Statements with Proofs [37.38969121408295]
このタスクは、研究レベルの数学的テキストの処理を改善するために設計されている。
我々は180k以上の文対からなるタスク用のデータセットをリリースする。
課題をグローバルに検討し,重み付き二部マッチングアルゴリズムを用いることで,課題に対処できることが示唆された。
論文 参考訳(メタデータ) (2021-02-03T15:38:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。