論文の概要: Physics of Language Models: Part 2.1, Grade-School Math and the Hidden Reasoning Process
- arxiv url: http://arxiv.org/abs/2407.20311v1
- Date: Mon, 29 Jul 2024 17:52:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 19:08:17.762491
- Title: Physics of Language Models: Part 2.1, Grade-School Math and the Hidden Reasoning Process
- Title(参考訳): 言語モデルの物理:その2.1, 小学校数学と隠れ推論過程
- Authors: Tian Ye, Zicheng Xu, Yuanzhi Li, Zeyuan Allen-Zhu,
- Abstract要約: 言語モデルの最近の進歩は、数学的推論問題を解く能力を示している。
本研究は,言語モデルが数学的問題を解くための隠された多くのメカニズムを明らかにする。
- 参考スコア(独自算出の注目度): 47.753284211200665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in language models have demonstrated their capability to solve mathematical reasoning problems, achieving near-perfect accuracy on grade-school level math benchmarks like GSM8K. In this paper, we formally study how language models solve these problems. We design a series of controlled experiments to address several fundamental questions: (1) Can language models truly develop reasoning skills, or do they simply memorize templates? (2) What is the model's hidden (mental) reasoning process? (3) Do models solve math questions using skills similar to or different from humans? (4) Do models trained on GSM8K-like datasets develop reasoning skills beyond those necessary for solving GSM8K problems? (5) What mental process causes models to make reasoning mistakes? (6) How large or deep must a model be to effectively solve GSM8K-level math questions? Our study uncovers many hidden mechanisms by which language models solve mathematical questions, providing insights that extend beyond current understandings of LLMs.
- Abstract(参考訳): 言語モデルの最近の進歩は、GSM8Kのような小学校レベルの数学ベンチマークにおいて、数学的推論の問題を解く能力を示し、ほぼ完璧な精度を実現している。
本稿では,言語モデルがこれらの問題を解決する方法について,正式に研究する。
1)言語モデルは推論スキルを本当に開発できるか、それとも単にテンプレートを記憶しているか?
(2)モデルの隠れ(メンタル)推論プロセスとは何でしょうか?
(3)モデルでは,人間と同じような,あるいは異なるスキルを用いて数学の問題を解くことができるか?
(4) GSM8Kライクなデータセットでトレーニングされたモデルは、GSM8K問題解決に必要なもの以上の推論スキルを発達させるか?
(5) モデルが推論ミスを犯す原因は何か。
(6)GSM8Kレベルの数学問題を効果的に解くためには,モデルのサイズや深さがどの程度必要か?
本研究は,言語モデルが数学的な問題を解くための多くの隠されたメカニズムを明らかにし,LLMの現在の理解を超えた洞察を提供する。
関連論文リスト
- Large Language Models and Mathematical Reasoning Failures [1.6114012813668932]
本稿では,50の高校レベルの単語問題を用いた大規模言語モデル(LLM)の数学的推論能力について検討する。
最終回答と解決手順の両方を厳格に分析して、推論の失敗を特定します。
より新しいモデル(例えば、o3-mini、deepseek-r1)はより精度が高いが、全てのモデルは空間的推論、戦略的計画、算術における誤りを示す。
論文 参考訳(メタデータ) (2025-02-17T09:07:32Z) - MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。
また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文 参考訳(メタデータ) (2025-02-10T13:31:46Z) - ProcessBench: Identifying Process Errors in Mathematical Reasoning [62.80402845414901]
本稿では,数学的推論における誤ったステップを識別する能力を測定するためのProcessBenchを紹介する。
ProcessBenchは3400のテストケースで構成され、主に競合とオリンピアードレベルの数学問題に焦点を当てている。
我々はProcessBenchについて、プロセス報酬モデル(PRM)と批判モデルという2種類のモデルを含む広範囲な評価を行う。
論文 参考訳(メタデータ) (2024-12-09T15:11:40Z) - InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning [98.53491178426492]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。
我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。
我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文 参考訳(メタデータ) (2024-02-09T11:22:08Z) - ALERT: Adapting Language Models to Reasoning Tasks [43.8679673685468]
ALERTは、言語モデルの推論能力を評価するためのベンチマークと分析スイートである。
ALERTは、あらゆる言語モデルに対して、きめ細かい推論スキルを評価するためのテストベッドを提供する。
言語モデルは、事前学習状態と比較して、微調整段階の推論スキルを学習する。
論文 参考訳(メタデータ) (2022-12-16T05:15:41Z) - Solving Quantitative Reasoning Problems with Language Models [53.53969870599973]
我々は、一般的な自然言語データに基づいて事前訓練された大規模言語モデルであるMinervaを紹介し、さらに技術的な内容について訓練する。
このモデルは、外部ツールを使わずに、技術的ベンチマークで最先端のパフォーマンスを達成する。
我々はまた、物理学、生物学、化学、経済学、その他の科学における200以上の学部レベルの問題に対して、我々のモデルを評価した。
論文 参考訳(メタデータ) (2022-06-29T18:54:49Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z) - Towards Tractable Mathematical Reasoning: Challenges, Strategies, and
Opportunities for Solving Math Word Problems [4.309840398782996]
自然言語を用いた数学単語問題の解法として,非神経的・神経的手法を検証した。
これらの手法が一般化可能であり、数学的に合理的であり、解釈可能であり、説明可能であることを強調する。
技術的アプローチについて議論し、MWPを解くための直感的な設計選択の進化を概観し、数学的推論能力について検討する。
論文 参考訳(メタデータ) (2021-10-29T05:20:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。