論文の概要: Orca-Math: Unlocking the potential of SLMs in Grade School Math
- arxiv url: http://arxiv.org/abs/2402.14830v1
- Date: Fri, 16 Feb 2024 23:44:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-03 19:36:39.408751
- Title: Orca-Math: Unlocking the potential of SLMs in Grade School Math
- Title(参考訳): Orca-Math:小学生数学におけるSLMの可能性を解き明かす
- Authors: Arindam Mitra, Hamed Khanpour, Corby Rosset, Ahmed Awadallah
- Abstract要約: 最近の研究では、GSM8Kベンチマークで80%以上の精度を達成するために必要な最小のモデルサイズは、34億のパラメータであると仮定されている。
より小さなモデルでこのレベルのパフォーマンスを達成するために、研究者はしばしばSLMを使ってPythonコードを生成するか、計算エラーを避けるツールを使用する。
エージェントが協調してデータを作成するマルチエージェントセットアップを使用して、200Kの数学問題の高品質な合成データセットを作成する。
- 参考スコア(独自算出の注目度): 10.206509967833664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mathematical word problem-solving has long been recognized as a complex task
for small language models (SLMs). A recent study hypothesized that the smallest
model size, needed to achieve over 80% accuracy on the GSM8K benchmark, is 34
billion parameters. To reach this level of performance with smaller models,
researcher often train SLMs to generate Python code or use tools to help avoid
calculation errors. Additionally, they employ ensembling, where outputs of up
to 100 model runs are combined to arrive at a more accurate result. Result
selection is done using consensus, majority vote or a separate a verifier model
used in conjunction with the SLM. Ensembling provides a substantial boost in
accuracy but at a significant cost increase with multiple calls to the model
(e.g., Phi-GSM uses top-48 to boost the performance from 68.2 to 81.5).
In this work, we present Orca-Math, a 7-billion-parameter SLM based on the
Mistral-7B, which achieves 86.81% on GSM8k without the need for multiple model
calls or the use of verifiers, code execution or any other external tools. Our
approach has the following key elements: (1) A high quality synthetic dataset
of 200K math problems created using a multi-agent setup where agents
collaborate to create the data, (2) An iterative learning techniques that
enables the SLM to practice solving problems, receive feedback on its solutions
and learn from preference pairs incorporating the SLM solutions and the
feedback. When trained with Supervised Fine-Tuning alone, Orca-Math achieves
81.50% on GSM8k pass@1 metric. With iterative preference learning, Orca-Math
achieves 86.81% pass@1. Orca-Math surpasses the performance of significantly
larger models such as LLAMA-2-70B, WizardMath-70B, Gemini-Pro, ChatGPT-3.5. It
also significantly outperforms other smaller models while using much smaller
data (hundreds of thousands vs. millions of problems).
- Abstract(参考訳): 数学的な単語問題解決は、長い間、小言語モデル(SLM)の複雑なタスクとして認識されてきた。
最近の研究では、gsm8kベンチマークで80%以上の精度を達成するために必要な最小のモデルサイズは34億パラメータであると仮定している。
より小さなモデルでこのレベルのパフォーマンスを達成するために、研究者はしばしばSLMを使ってPythonコードを生成するか、計算エラーを避けるツールを使用する。
さらに、最大100モデル実行の出力を組み合わせることで、より正確な結果が得られる、センスリングも採用している。
結果の選択は、コンセンサス、多数決、あるいはSLMと組み合わせて使用する検証モデルを使用して行われる。
組み立ては精度を大幅に向上させるが、複数の呼び出しによってコストが大幅に上昇する(例えば、Phi-GSMはトップ48を使用して68.2から81.5に性能を向上する)。
本研究では,複数のモデルコールや検証器,コード実行,その他の外部ツールを使わずに,GSM8k上で86.81%を達成したMistral-7Bをベースとした7ビリオンパラメータSLMであるOrca-Mathを紹介する。
提案手法は,(1)エージェントが協調してデータを作成するマルチエージェント構成を用いて生成した200Kの数学問題の高品質な合成データセット,(2)SLMが問題解決を実践し,そのソリューションに対するフィードバックを受信し,SLMソリューションとフィードバックを取り入れた選好ペアから学習する反復学習技術,である。
教師付き微調整だけで訓練すると、gsm8k pass@1メトリックで81.50%に達する。
反復的な選好学習により、Orca-Mathは86.81%のパス@1を達成する。
Orca-Math は LLAMA-2-70B, WizardMath-70B, Gemini-Pro, ChatGPT-3.5 などの大型モデルよりも性能が優れている。
また、はるかに小さなデータ(何百万もの問題に対して数十万という)を使いながら、他の小さなモデルを大幅に上回っている。
関連論文リスト
- A Careful Examination of Large Language Model Performance on Grade School Arithmetic [4.667380916143971]
大規模言語モデル (LLM) は、数学的推論のための多くのベンチマークで驚くべき成功を収めた。
このパフォーマンスの一部は、実際にデータセットの汚染を反映している、という懸念が高まっている。
論文 参考訳(メタデータ) (2024-05-01T05:52:05Z) - Clustering MOOC Programming Solutions to Diversify Their Presentation to Students [6.219350126324697]
私たちは、人気のあるMOOCプラットフォームであるHyperskill上のPythonのサブミッションに、JPlagというプラジャリズム検出ツールを適応させました。
ツールの内部アルゴリズムのため、研究対象となったタスクは867件中46件に過ぎなかった。
我々はJPlagが処理するタスクの5.3%と残りの94.7%でRhubarbを使用するシステムを開発した。
論文 参考訳(メタデータ) (2024-03-28T13:18:49Z) - Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。
拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文 参考訳(メタデータ) (2024-03-07T18:00:40Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of
LLMs as Mathematical Problem Solvers [73.78371810664319]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - MathGenie: Generating Synthetic Data with Question Back-translation for
Enhancing Mathematical Reasoning of LLMs [39.769464414087935]
MathGenieは、小規模の問題解決データセットから多様で信頼性の高い数学問題を生成する新しい方法である。
7Bから70Bまでの各種事前学習モデルについて, 提案手法の有効性を検証するために, 新たなキュレートデータを用いて訓練を行った。
MathGenieLM-InternLM2はGSM8Kで87.7%、MATHで55.7%の精度を達成し、オープンソース言語モデルで最高のスコアを確保している。
論文 参考訳(メタデータ) (2024-02-26T07:17:25Z) - TinyGSM: achieving >80% on GSM8k with small language models [49.21136294791747]
小型モデルは様々な計算上の利点を提供するが、どの程度の大きさが問題解決能力にとって重要なのかは未解決のままである。
特に小学校の数学を解くために、GSM8Kベンチマークの80%の障壁を破るために必要なモデルサイズは、まだ34Bである。
我々の研究は、数学的な推論を得るための小さな言語モデルにとって、高品質なデータセットがどのように鍵となるかを研究する。
論文 参考訳(メタデータ) (2023-12-14T18:58:28Z) - Look Before You Leap: A Universal Emergent Decomposition of Retrieval
Tasks in Language Models [58.57279229066477]
本研究では,言語モデル(LM)が様々な状況下での検索タスクをどのように解決するかを検討する。
ORIONは6つのドメインにまたがる構造化された検索タスクの集合である。
LMは内部的にモジュール方式で検索タスクを分解する。
論文 参考訳(メタデータ) (2023-12-13T18:36:43Z) - MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models [91.66694225955872]
数学的推論を専門とする微調整言語モデルであるMetaMathを提案する。
具体的には、余分な知識を伴わずに複数の視点から質問を書き換えることで、数学的質問をブートストラップすることから始める。
私たちは、すべてのMetaMathQAデータセット、異なるモデルサイズを持つMetaMathモデル、パブリック使用のためのトレーニングコードをリリースします。
論文 参考訳(メタデータ) (2023-09-21T17:45:42Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。