論文の概要: Physics of Language Models: Part 2.1, Grade-School Math and the Hidden Reasoning Process
- arxiv url: http://arxiv.org/abs/2407.20311v1
- Date: Mon, 29 Jul 2024 17:52:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 19:08:17.762491
- Title: Physics of Language Models: Part 2.1, Grade-School Math and the Hidden Reasoning Process
- Title(参考訳): 言語モデルの物理:その2.1, 小学校数学と隠れ推論過程
- Authors: Tian Ye, Zicheng Xu, Yuanzhi Li, Zeyuan Allen-Zhu,
- Abstract要約: 言語モデルの最近の進歩は、数学的推論問題を解く能力を示している。
本研究は,言語モデルが数学的問題を解くための隠された多くのメカニズムを明らかにする。
- 参考スコア(独自算出の注目度): 47.753284211200665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in language models have demonstrated their capability to solve mathematical reasoning problems, achieving near-perfect accuracy on grade-school level math benchmarks like GSM8K. In this paper, we formally study how language models solve these problems. We design a series of controlled experiments to address several fundamental questions: (1) Can language models truly develop reasoning skills, or do they simply memorize templates? (2) What is the model's hidden (mental) reasoning process? (3) Do models solve math questions using skills similar to or different from humans? (4) Do models trained on GSM8K-like datasets develop reasoning skills beyond those necessary for solving GSM8K problems? (5) What mental process causes models to make reasoning mistakes? (6) How large or deep must a model be to effectively solve GSM8K-level math questions? Our study uncovers many hidden mechanisms by which language models solve mathematical questions, providing insights that extend beyond current understandings of LLMs.
- Abstract(参考訳): 言語モデルの最近の進歩は、GSM8Kのような小学校レベルの数学ベンチマークにおいて、数学的推論の問題を解く能力を示し、ほぼ完璧な精度を実現している。
本稿では,言語モデルがこれらの問題を解決する方法について,正式に研究する。
1)言語モデルは推論スキルを本当に開発できるか、それとも単にテンプレートを記憶しているか?
(2)モデルの隠れ(メンタル)推論プロセスとは何でしょうか?
(3)モデルでは,人間と同じような,あるいは異なるスキルを用いて数学の問題を解くことができるか?
(4) GSM8Kライクなデータセットでトレーニングされたモデルは、GSM8K問題解決に必要なもの以上の推論スキルを発達させるか?
(5) モデルが推論ミスを犯す原因は何か。
(6)GSM8Kレベルの数学問題を効果的に解くためには,モデルのサイズや深さがどの程度必要か?
本研究は,言語モデルが数学的な問題を解くための多くの隠されたメカニズムを明らかにし,LLMの現在の理解を超えた洞察を提供する。
関連論文リスト
- MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。
しかし、数学的な問題を解く能力は依然として不十分である。
高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:42:59Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Brain-Inspired Two-Stage Approach: Enhancing Mathematical Reasoning by
Imitating Human Thought Processes [6.512667145063511]
本稿では,人間の思考過程を模倣し,数学的推論能力を高める新しい手法であるBrainを提案する。
まず,コードLLaMA 7Bをベースとしたモデルと比較し,SOTAの性能を評価する。
第二に、計画が自然言語、コード、形式言語から明示的に抽出できることが分かる。
論文 参考訳(メタデータ) (2024-02-23T17:40:31Z) - InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning [98.53491178426492]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。
我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。
我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文 参考訳(メタデータ) (2024-02-09T11:22:08Z) - ALERT: Adapting Language Models to Reasoning Tasks [43.8679673685468]
ALERTは、言語モデルの推論能力を評価するためのベンチマークと分析スイートである。
ALERTは、あらゆる言語モデルに対して、きめ細かい推論スキルを評価するためのテストベッドを提供する。
言語モデルは、事前学習状態と比較して、微調整段階の推論スキルを学習する。
論文 参考訳(メタデータ) (2022-12-16T05:15:41Z) - Solving Quantitative Reasoning Problems with Language Models [53.53969870599973]
我々は、一般的な自然言語データに基づいて事前訓練された大規模言語モデルであるMinervaを紹介し、さらに技術的な内容について訓練する。
このモデルは、外部ツールを使わずに、技術的ベンチマークで最先端のパフォーマンスを達成する。
我々はまた、物理学、生物学、化学、経済学、その他の科学における200以上の学部レベルの問題に対して、我々のモデルを評価した。
論文 参考訳(メタデータ) (2022-06-29T18:54:49Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z) - Towards Tractable Mathematical Reasoning: Challenges, Strategies, and
Opportunities for Solving Math Word Problems [4.309840398782996]
自然言語を用いた数学単語問題の解法として,非神経的・神経的手法を検証した。
これらの手法が一般化可能であり、数学的に合理的であり、解釈可能であり、説明可能であることを強調する。
技術的アプローチについて議論し、MWPを解くための直感的な設計選択の進化を概観し、数学的推論能力について検討する。
論文 参考訳(メタデータ) (2021-10-29T05:20:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。