論文の概要: Orca-Math: Unlocking the potential of SLMs in Grade School Math
- arxiv url: http://arxiv.org/abs/2402.14830v1
- Date: Fri, 16 Feb 2024 23:44:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-03 19:36:39.408751
- Title: Orca-Math: Unlocking the potential of SLMs in Grade School Math
- Title(参考訳): Orca-Math:小学生数学におけるSLMの可能性を解き明かす
- Authors: Arindam Mitra, Hamed Khanpour, Corby Rosset, Ahmed Awadallah
- Abstract要約: 最近の研究では、GSM8Kベンチマークで80%以上の精度を達成するために必要な最小のモデルサイズは、34億のパラメータであると仮定されている。
より小さなモデルでこのレベルのパフォーマンスを達成するために、研究者はしばしばSLMを使ってPythonコードを生成するか、計算エラーを避けるツールを使用する。
エージェントが協調してデータを作成するマルチエージェントセットアップを使用して、200Kの数学問題の高品質な合成データセットを作成する。
- 参考スコア(独自算出の注目度): 10.206509967833664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mathematical word problem-solving has long been recognized as a complex task
for small language models (SLMs). A recent study hypothesized that the smallest
model size, needed to achieve over 80% accuracy on the GSM8K benchmark, is 34
billion parameters. To reach this level of performance with smaller models,
researcher often train SLMs to generate Python code or use tools to help avoid
calculation errors. Additionally, they employ ensembling, where outputs of up
to 100 model runs are combined to arrive at a more accurate result. Result
selection is done using consensus, majority vote or a separate a verifier model
used in conjunction with the SLM. Ensembling provides a substantial boost in
accuracy but at a significant cost increase with multiple calls to the model
(e.g., Phi-GSM uses top-48 to boost the performance from 68.2 to 81.5).
In this work, we present Orca-Math, a 7-billion-parameter SLM based on the
Mistral-7B, which achieves 86.81% on GSM8k without the need for multiple model
calls or the use of verifiers, code execution or any other external tools. Our
approach has the following key elements: (1) A high quality synthetic dataset
of 200K math problems created using a multi-agent setup where agents
collaborate to create the data, (2) An iterative learning techniques that
enables the SLM to practice solving problems, receive feedback on its solutions
and learn from preference pairs incorporating the SLM solutions and the
feedback. When trained with Supervised Fine-Tuning alone, Orca-Math achieves
81.50% on GSM8k pass@1 metric. With iterative preference learning, Orca-Math
achieves 86.81% pass@1. Orca-Math surpasses the performance of significantly
larger models such as LLAMA-2-70B, WizardMath-70B, Gemini-Pro, ChatGPT-3.5. It
also significantly outperforms other smaller models while using much smaller
data (hundreds of thousands vs. millions of problems).
- Abstract(参考訳): 数学的な単語問題解決は、長い間、小言語モデル(SLM)の複雑なタスクとして認識されてきた。
最近の研究では、gsm8kベンチマークで80%以上の精度を達成するために必要な最小のモデルサイズは34億パラメータであると仮定している。
より小さなモデルでこのレベルのパフォーマンスを達成するために、研究者はしばしばSLMを使ってPythonコードを生成するか、計算エラーを避けるツールを使用する。
さらに、最大100モデル実行の出力を組み合わせることで、より正確な結果が得られる、センスリングも採用している。
結果の選択は、コンセンサス、多数決、あるいはSLMと組み合わせて使用する検証モデルを使用して行われる。
組み立ては精度を大幅に向上させるが、複数の呼び出しによってコストが大幅に上昇する(例えば、Phi-GSMはトップ48を使用して68.2から81.5に性能を向上する)。
本研究では,複数のモデルコールや検証器,コード実行,その他の外部ツールを使わずに,GSM8k上で86.81%を達成したMistral-7Bをベースとした7ビリオンパラメータSLMであるOrca-Mathを紹介する。
提案手法は,(1)エージェントが協調してデータを作成するマルチエージェント構成を用いて生成した200Kの数学問題の高品質な合成データセット,(2)SLMが問題解決を実践し,そのソリューションに対するフィードバックを受信し,SLMソリューションとフィードバックを取り入れた選好ペアから学習する反復学習技術,である。
教師付き微調整だけで訓練すると、gsm8k pass@1メトリックで81.50%に達する。
反復的な選好学習により、Orca-Mathは86.81%のパス@1を達成する。
Orca-Math は LLAMA-2-70B, WizardMath-70B, Gemini-Pro, ChatGPT-3.5 などの大型モデルよりも性能が優れている。
また、はるかに小さなデータ(何百万もの問題に対して数十万という)を使いながら、他の小さなモデルを大幅に上回っている。
関連論文リスト
- Not All Votes Count! Programs as Verifiers Improve Self-Consistency of Language Models for Math Reasoning [24.386388107656334]
本稿では,プログラムベースの検証を用いて,潜在的に誤った推論経路をフィルタリングするPROVEを提案する。
バニラ多数決に頼る代わりに、我々の手法は、対応するプログラム出力が生成された解と矛盾する解を拒絶する。
PROVEは、すべてのデータセットとモデルサイズにわたる数学的推論タスクを解決するために、バニラ投票を一貫して上回っている。
論文 参考訳(メタデータ) (2024-10-16T14:24:55Z) - SuperCorrect: Supervising and Correcting Language Models with Error-Driven Insights [89.56181323849512]
より小規模な学生モデルの推論と反映の両方を教師モデルを用いて監督し,修正するフレームワークであるSuperCorrectを提案する。
第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。
第2段階では、学生モデルの自己補正能力を高めるために、クロスモデル協調直接選好最適化(DPO)を導入する。
論文 参考訳(メタデータ) (2024-10-11T17:25:52Z) - LLaMa-SciQ: An Educational Chatbot for Answering Science MCQ [0.0]
大規模言語モデル(LLM)は、数学的な推論を必要とするタスク、特に多重選択質問(MCQ)にしばしば苦労する。
我々は,STEM分野におけるMCQの解決と理解を支援するLLaMa-SciQを開発した。
数学的推論では、LLaMa-SciQはGSM8kデータセットで74.5%、MATHデータセットで30%の精度を達成した。
論文 参考訳(メタデータ) (2024-09-25T09:41:46Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - A Careful Examination of Large Language Model Performance on Grade School Arithmetic [4.573055530800853]
大規模言語モデル (LLM) は、数学的推論のための多くのベンチマークで驚くべき成功を収めた。
このパフォーマンスの一部は、実際にデータセットの汚染を反映している、という懸念が高まっている。
論文 参考訳(メタデータ) (2024-05-01T05:52:05Z) - Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。
拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文 参考訳(メタデータ) (2024-03-07T18:00:40Z) - TinyGSM: achieving >80% on GSM8k with small language models [49.21136294791747]
小型モデルは様々な計算上の利点を提供するが、どの程度の大きさが問題解決能力にとって重要なのかは未解決のままである。
特に小学校の数学を解くために、GSM8Kベンチマークの80%の障壁を破るために必要なモデルサイズは、まだ34Bである。
我々の研究は、数学的な推論を得るための小さな言語モデルにとって、高品質なデータセットがどのように鍵となるかを研究する。
論文 参考訳(メタデータ) (2023-12-14T18:58:28Z) - MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models [91.66694225955872]
数学的推論を専門とする微調整言語モデルであるMetaMathを提案する。
具体的には、余分な知識を伴わずに複数の視点から質問を書き換えることで、数学的質問をブートストラップすることから始める。
私たちは、すべてのMetaMathQAデータセット、異なるモデルサイズを持つMetaMathモデル、パブリック使用のためのトレーニングコードをリリースします。
論文 参考訳(メタデータ) (2023-09-21T17:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。