論文の概要: MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time
- arxiv url: http://arxiv.org/abs/2405.16265v2
- Date: Mon, 17 Jun 2024 13:37:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 04:18:36.583800
- Title: MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time
- Title(参考訳): MindStar: 推論時間における事前学習LDMにおける数学推論の強化
- Authors: Jikun Kang, Xin Zhe Li, Xi Chen, Amirreza Kazemi, Boxing Chen,
- Abstract要約: MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
- 参考スコア(独自算出の注目度): 19.76034177986023
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although Large Language Models (LLMs) achieve remarkable performance across various tasks, they often struggle with complex reasoning tasks, such as answering mathematical questions. Recent efforts to address this issue have primarily focused on leveraging mathematical datasets through supervised fine-tuning or self-improvement techniques. However, these methods often depend on high-quality datasets that are difficult to prepare, or they require substantial computational resources for fine-tuning. Inspired by findings that LLMs know how to produce the right answer but struggle to select the correct reasoning path, we propose a purely inference-based searching method -- MindStar (M*). This method formulates reasoning tasks as searching problems and proposes two search ideas to identify the optimal reasoning paths. We evaluate the M* framework on both the GSM8K and MATH datasets, comparing its performance with existing open and closed-source LLMs. Our results demonstrate that M* significantly enhances the reasoning abilities of open-source models, such as Llama-2-13B and Mistral-7B, and achieves comparable performance to GPT-3.5 and Grok-1, but with substantially reduced model size and computational costs.
- Abstract(参考訳): 大きな言語モデル(LLM)は様々なタスクで顕著なパフォーマンスを達成するが、数学的な疑問に答えるなど複雑な推論タスクに苦しむことが多い。
この問題に対処する最近の取り組みは、主に教師付き微調整技術や自己改善技術による数学的データセットの活用に焦点を当てている。
しかし、これらの手法は、しばしば準備が難しい高品質なデータセットに依存するか、あるいは微調整のためにかなりの計算資源を必要とする。
LLMが正しい答えを生成する方法を知っているが、正しい推論経路を選択するのに苦労しているという発見に触発されて、我々は純粋に推論に基づく探索手法であるMindStar (M*)を提案する。
本手法は,探索問題として推論タスクを定式化し,最適な推論経路を特定するための2つの探索アイデアを提案する。
GSM8KとMATHの両方のデータセット上でM*フレームワークを評価し,その性能を既存のオープンソースLLMと比較した。
その結果,M* は Llama-2-13B や Mistral-7B などのオープンソースモデルの推論能力を大幅に向上し,GPT-3.5 や Grok-1 に匹敵する性能が得られたが,モデルサイズや計算コストは大幅に削減された。
関連論文リスト
- Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。
KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文 参考訳(メタデータ) (2024-06-20T13:07:38Z) - From Large to Tiny: Distilling and Refining Mathematical Expertise for Math Word Problems with Weakly Supervision [12.023661884821554]
本稿では,大規模言語モデルから小型言語モデルへの数学的知識の伝達を徹底的に行う,革新的な2段階のフレームワークを提案する。
提案手法は,探索型'確率方程式'ペアにおける意味理解機能を完全に活用する。
Math23KとWeak12Kデータセットでは、既存の小さなモデルメソッドと比較して大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-03-21T13:29:54Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
大規模言語モデル(LLM)は論理的推論ベンチマークで顕著な結果を示した。
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
質問に対して、すべてのモデルで大幅なパフォーマンス低下を見せています。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible
Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。
本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。
本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文 参考訳(メタデータ) (2024-01-16T08:08:01Z) - Improving Large Language Model Fine-tuning for Solving Math Problems [20.417053742869403]
大きな言語モデルのパス・アット・ワン(pass-at-one)とパス・アット・N(pass-at-N)のパフォーマンスの間には大きなギャップがある。
挑戦的なMATHデータセットを用いて3つの微調整戦略を検討する。
我々は、微調整されたPaLM 2-Lモデルを用いて、MATHデータセット上で約58.8%の精度が得られる微調整レシピを設計する。
論文 参考訳(メタデータ) (2023-10-16T04:11:19Z) - Fill in the Blank: Exploring and Enhancing LLM Capabilities for Backward Reasoning in Math Word Problems [17.80128896525717]
後向きの推論は 比較的未調査です
後方推論は 前方推論の「逆」と見なすことができます
性能改善のための3つの異なる前方推論戦略のバリエーションを提案する。
論文 参考訳(メタデータ) (2023-10-03T12:03:06Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Evaluating and Improving Tool-Augmented Computation-Intensive Math
Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。
ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。
CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-06-04T17:02:59Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。