論文の概要: Stepwise Self-Consistent Mathematical Reasoning with Large Language
Models
- arxiv url: http://arxiv.org/abs/2402.17786v1
- Date: Sat, 24 Feb 2024 08:22:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 17:35:24.194501
- Title: Stepwise Self-Consistent Mathematical Reasoning with Large Language
Models
- Title(参考訳): 大規模言語モデルを用いた段階的自己整合数学的推論
- Authors: Zilong Zhao, Yao Rong, Dongyang Guo, Emek G\"ozl\"ukl\"u, Emir
G\"ulboy, Enkelejda Kasneci
- Abstract要約: 我々はSSC-CoT(Stepwise Self-Consistent Chain-of-Thought)という新しいアルゴリズムを導入する。
SSC-CoTは、様々な推論チェーンの交叉に基づいて中間ステップを選択する戦略を採用している。
複雑な三角法問題に適した新しいデータセットTriMaster100を提案する。
- 参考スコア(独自算出の注目度): 13.357334408412187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Using Large Language Models for complex mathematical reasoning is difficult,
primarily due to the complexity of multi-step reasoning. The main challenges of
this process include (1) selecting critical intermediate results to advance the
procedure, and (2) limited exploration of potential solutions. To address these
issues, we introduce a novel algorithm, namely Stepwise Self-Consistent
Chain-of-Thought (SSC-CoT). SSC-CoT employs a strategy of selecting
intermediate steps based on the intersection of various reasoning chains.
Additionally, SSC-CoT enables the model to discover critical intermediate steps
by querying a knowledge graph comprising relevant domain knowledge. To validate
SSC-CoT, we present a new dataset, TriMaster100, tailored for complex
trigonometry problems. This dataset contains 100 questions, with each solution
broken down into scored intermediate steps, facilitating a comprehensive
evaluation of the mathematical reasoning process. On TriMaster100, SSC-CoT
triples the effectiveness of the state-of-the-art methods. Furthermore, we
benchmark SSC-CoT on the widely recognized complex mathematical question
dataset, MATH level 5, and it surpasses the second-best method by 7.2% in
accuracy. Code and the TriMaster100 dataset can be found at:
https://github.com/zhao-zilong/ssc-cot.
- Abstract(参考訳): 複雑な数学的推論に大規模言語モデルを使うことは、主に多段階推論の複雑さのために難しい。
このプロセスの主な課題は、(1)手続きを進めるための重要な中間結果の選択、(2)潜在的な解の探索の制限などである。
これらの問題に対処するため,SSC-CoT(Stepwise Self-Consistent Chain-of-Thought)という新しいアルゴリズムを導入する。
SSC-CoTは、様々な推論チェーンの交叉に基づいて中間ステップを選択する戦略を採用している。
さらに、SSC-CoTは、関連するドメイン知識からなる知識グラフをクエリすることで、重要な中間ステップを発見することができる。
SSC-CoTを検証するために,複雑な三角法問題に適した新しいデータセットTriMaster100を提案する。
このデータセットには100の質問が含まれており、各解は中間段階に分解され、数学的推論プロセスの包括的な評価を容易にする。
TriMaster100では、SSC-CoTは最先端メソッドの有効性を3倍にする。
さらに, ssc-cot を算数レベル5という, 広く認識された複素数問題データセット上でベンチマークし, 精度が7.2%向上した。
コードとTriMaster100データセットは以下の通りである。
関連論文リスト
- MathCAMPS: Fine-grained Synthesis of Mathematical Problems From Human Curricula [33.5782208232163]
本研究では,高品質な数学問題を大規模に合成する手法であるMath CAMPSを提案する。
それぞれの標準を形式文法でエンコードし、様々な記号問題とその解をサンプリングする。
我々は、記号構造からフォローアップ質問を導き、それらをフォローアップ単語問題に変換する。
論文 参考訳(メタデータ) (2024-07-01T01:56:28Z) - Mathify: Evaluating Large Language Models on Mathematical Problem Solving Tasks [34.09857430966818]
我々は,11番目と12番目の標準数学 NCERT 教科書から得られた数学データセット "MathQuest" を紹介する。
LLaMA-2, WizardMath, MAmmoTHの3つの大きな言語モデルを用いた微調整実験を行った。
この3つのモデルのうち,MAmmoTH-13Bが最も熟練したモデルとして登場し,提示された数理問題の解法において,最高レベルの能力を達成した。
論文 参考訳(メタデータ) (2024-04-19T08:45:42Z) - Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning [110.80663974060624]
キーポイント駆動型データ合成(KPDDS)は質問応答対を合成する新しいデータ合成フレームワークである。
KPDDSは厳格な品質管理と相当なスケーラビリティを備えた新しい質問の生成を保証する。
KPMathは,800万以上の質問応答対から構成される,数学的推論に適した広範囲な合成データセットである。
論文 参考訳(メタデータ) (2024-03-04T18:58:30Z) - MUSTARD: Mastering Uniform Synthesis of Theorem and Proof Data [85.50740598523818]
MUSTARDは、高品質で多様性のある定理と証明データの均一な合成をマスターするフレームワークである。
5,866個の有効なデータポイントを持つMUSTARDSAUCEベンチマークを示す。
我々は広範囲な解析を行い、MUSTARDが検証された高品質なステップバイステップデータを生成することを示す。
論文 参考訳(メタデータ) (2024-02-14T05:57:58Z) - Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。
より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。
提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z) - Evaluating and Improving Tool-Augmented Computation-Intensive Math
Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。
ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。
CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-06-04T17:02:59Z) - T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Mixed Large
Language Model Signals for Science Question Answering [59.63860993280275]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
LLM信号を用いた科学質問応答の指導を目的とした,T-SciQと呼ばれる新しい手法を提案する。
提案手法は,ScienceQAベンチマークで96.18%の精度で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-05T11:56:30Z) - Benchmarking Multivariate Time Series Classification Algorithms [69.12151492736524]
時系列分類(TSC)は、順序付き、実値付き、属性から離散的なターゲット変数の予測モデルを構築することを含む。
近年,従来の技術よりも大幅に改良された新しいTSCアルゴリズムが開発されている。
本稿では, 深層学習, シェープレット, 単語の袋を用いた MTSC アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-26T15:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。