論文の概要: Improving Large Language Model Fine-tuning for Solving Math Problems
- arxiv url: http://arxiv.org/abs/2310.10047v1
- Date: Mon, 16 Oct 2023 04:11:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 16:40:01.173947
- Title: Improving Large Language Model Fine-tuning for Solving Math Problems
- Title(参考訳): 数学問題の解法のための大規模言語モデル微調整の改良
- Authors: Yixin Liu, Avi Singh, C. Daniel Freeman, John D. Co-Reyes, Peter J.
Liu
- Abstract要約: 大きな言語モデルのパス・アット・ワン(pass-at-one)とパス・アット・N(pass-at-N)のパフォーマンスの間には大きなギャップがある。
挑戦的なMATHデータセットを用いて3つの微調整戦略を検討する。
我々は、微調整されたPaLM 2-Lモデルを用いて、MATHデータセット上で約58.8%の精度が得られる微調整レシピを設計する。
- 参考スコア(独自算出の注目度): 20.417053742869403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their success in many natural language tasks, solving math problems
remains a significant challenge for large language models (LLMs). A large gap
exists between LLMs' pass-at-one and pass-at-N performance in solving math
problems, suggesting LLMs might be close to finding correct solutions,
motivating our exploration of fine-tuning methods to unlock LLMs' performance.
Using the challenging MATH dataset, we investigate three fine-tuning
strategies: (1) solution fine-tuning, where we fine-tune to generate a detailed
solution for a given math problem; (2) solution-cluster re-ranking, where the
LLM is fine-tuned as a solution verifier/evaluator to choose among generated
candidate solution clusters; (3) multi-task sequential fine-tuning, which
integrates both solution generation and evaluation tasks together efficiently
to enhance the LLM performance. With these methods, we present a thorough
empirical study on a series of PaLM 2 models and find: (1) The quality and
style of the step-by-step solutions used for fine-tuning can make a significant
impact on the model performance; (2) While solution re-ranking and majority
voting are both effective for improving the model performance when used
separately, they can also be used together for an even greater performance
boost; (3) Multi-task fine-tuning that sequentially separates the solution
generation and evaluation tasks can offer improved performance compared with
the solution fine-tuning baseline. Guided by these insights, we design a
fine-tuning recipe that yields approximately 58.8% accuracy on the MATH dataset
with fine-tuned PaLM 2-L models, an 11.2% accuracy improvement over the
few-shot performance of pre-trained PaLM 2-L model with majority voting.
- Abstract(参考訳): 多くの自然言語タスクで成功したにもかかわらず、数学の問題を解決することは大きな言語モデル(LLM)にとって重要な課題である。
LLMのパス・アット・ワン(pass-at-one)とパス・アット・N(pass-at-N)のパフォーマンスの間には大きなギャップがあり、LLMが正しい解を見つけるのに近づいていることを示唆している。
1) 与えられた数学問題の詳細な解を微調整する解の微調整, (2) llm を生成候補の解クラスタの中から選択する解検証/評価器として微調整する解のクラスタ再調整,(3) 解生成と評価タスクを効率的に統合してllm性能を向上させるマルチタスクの逐次的微調整,の3つの微調整戦略を検討した。
With these methods, we present a thorough empirical study on a series of PaLM 2 models and find: (1) The quality and style of the step-by-step solutions used for fine-tuning can make a significant impact on the model performance; (2) While solution re-ranking and majority voting are both effective for improving the model performance when used separately, they can also be used together for an even greater performance boost; (3) Multi-task fine-tuning that sequentially separates the solution generation and evaluation tasks can offer improved performance compared with the solution fine-tuning baseline.
これらの知見を導出して,パーム2-lモデルの微調整による算数データセットにおける約58.8%の精度向上を実現した微調整レシピを設計した。
関連論文リスト
- Solving General Natural-Language-Description Optimization Problems with Large Language Models [34.50671063271608]
外部ソルバでLLMを増強するOPtLLMという新しいフレームワークを提案する。
OptLLMは自然言語でユーザクエリを受け付け、それらを数学的定式化やプログラミングコードに変換し、解決者を呼び出して結果を計算する。
OptLLMフレームワークのいくつかの機能は、2023年6月から試用されている。
論文 参考訳(メタデータ) (2024-07-09T07:11:10Z) - Navigating the Labyrinth: Evaluating and Enhancing LLMs' Ability to Reason About Search Problems [59.72548591120689]
我々は,11種類の検索問題を含む新しいベンチマークであるSearchBenchを紹介する。
もっとも先進的なLCMでさえ、これらの問題をエンドツーエンドのテキストで解決することができないことを示す。
LLMにその問題を解決するコードを生成するように指示することは助けになるが、GPT4のパフォーマンスは11.7%向上した。
論文 参考訳(メタデータ) (2024-06-18T00:44:58Z) - Assessing the Emergent Symbolic Reasoning Abilities of Llama Large Language Models [47.129504708849446]
大規模言語モデル(LLM)は、幅広いタスクにおいて印象的なパフォーマンスを達成する。
LLMは数学的推論ベンチマークにおいて創発的な能力を示す。
我々は,Llama 2ファミリーの3つのモデルについて,異なるシンボリック推論タスクで評価した。
論文 参考訳(メタデータ) (2024-06-05T12:22:43Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Thought of Search: Planning with Language Models Through The Lens of Efficiency [22.47015814897628]
我々は近年の傾向が非効率性のために健全性と完全性の両方を放棄していると論じる。
本研究では,LLMを用いて検索コンポーネントのコードを生成することにより,全データセットを100%精度で解けることを示す。
論文 参考訳(メタデータ) (2024-04-18T01:27:29Z) - V-STaR: Training Verifiers for Self-Taught Reasoners [75.11811592995176]
本稿では,自己改善プロセス中に生成した正解と誤解の両方を利用して検証器を訓練するV-STaRを提案する。
V-STaRは、既存の自己改善と検証アプローチよりも4%から17%の精度で改善されている。
論文 参考訳(メタデータ) (2024-02-09T15:02:56Z) - Adaptive-Solver Framework for Dynamic Strategy Selection in Large
Language Model Reasoning [34.568072559937455]
大きな言語モデル(LLM)は、複雑な推論タスクを扱う際、印象的な能力を示している。
LLMを利用するほとんどの方法論は、一様アプローチを採用する傾向がある。
それらの柔軟性は不要な計算オーバーヘッドや準最適性能をもたらす可能性がある。
本稿では,問題の難易度に基づく問題解決戦略を戦略的に調整するAdaptive-rフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-01T12:28:36Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - Model Selection in Batch Policy Optimization [88.52887493684078]
バッチポリシー最適化におけるモデル選択の問題について検討する。
我々は,任意のモデル選択アルゴリズムが競争力を得るために最適にトレードオフすべきという誤りの3つの源を同定する。
論文 参考訳(メタデータ) (2021-12-23T02:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。