Fugu-MT 論文翻訳(概要): Physics of Language Models: Part 2.1, Grade-School Math and the Hidden Reasoning Process

論文の概要: Physics of Language Models: Part 2.1, Grade-School Math and the Hidden Reasoning Process

arxiv url: http://arxiv.org/abs/2407.20311v1
Date: Mon, 29 Jul 2024 17:52:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-31 19:08:17.762491
Title: Physics of Language Models: Part 2.1, Grade-School Math and the Hidden Reasoning Process
Title（参考訳）: 言語モデルの物理:その2.1, 小学校数学と隠れ推論過程
Authors: Tian Ye, Zicheng Xu, Yuanzhi Li, Zeyuan Allen-Zhu,
Abstract要約: 言語モデルの最近の進歩は、数学的推論問題を解く能力を示している。本研究は,言語モデルが数学的問題を解くための隠された多くのメカニズムを明らかにする。
参考スコア（独自算出の注目度）: 47.753284211200665
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in language models have demonstrated their capability to solve mathematical reasoning problems, achieving near-perfect accuracy on grade-school level math benchmarks like GSM8K. In this paper, we formally study how language models solve these problems. We design a series of controlled experiments to address several fundamental questions: (1) Can language models truly develop reasoning skills, or do they simply memorize templates? (2) What is the model's hidden (mental) reasoning process? (3) Do models solve math questions using skills similar to or different from humans? (4) Do models trained on GSM8K-like datasets develop reasoning skills beyond those necessary for solving GSM8K problems? (5) What mental process causes models to make reasoning mistakes? (6) How large or deep must a model be to effectively solve GSM8K-level math questions? Our study uncovers many hidden mechanisms by which language models solve mathematical questions, providing insights that extend beyond current understandings of LLMs.
Abstract（参考訳）: 言語モデルの最近の進歩は、GSM8Kのような小学校レベルの数学ベンチマークにおいて、数学的推論の問題を解く能力を示し、ほぼ完璧な精度を実現している。本稿では,言語モデルがこれらの問題を解決する方法について,正式に研究する。 1)言語モデルは推論スキルを本当に開発できるか、それとも単にテンプレートを記憶しているか? (2)モデルの隠れ(メンタル)推論プロセスとは何でしょうか? (3)モデルでは,人間と同じような,あるいは異なるスキルを用いて数学の問題を解くことができるか? (4) GSM8Kライクなデータセットでトレーニングされたモデルは、GSM8K問題解決に必要なもの以上の推論スキルを発達させるか? (5) モデルが推論ミスを犯す原因は何か。 (6)GSM8Kレベルの数学問題を効果的に解くためには,モデルのサイズや深さがどの程度必要か? 本研究は,言語モデルが数学的な問題を解くための多くの隠されたメカニズムを明らかにし,LLMの現在の理解を超えた洞察を提供する。

関連論文リスト

Self-Questioning Language Models [51.75087358141567]
本稿では,提案者がトピックを与えられ,解答者に対する質問を生成する非対称なセルフプレイフレームワークを提案する。提案者と解答者はともに強化学習を通じて訓練される。 3桁の乗算、OMEGAベンチマークの代数問題、Codeforcesのプログラミング問題である。
論文参考訳（メタデータ） (2025-08-05T17:51:33Z)
Large Language Models and Mathematical Reasoning Failures [1.6114012813668932]
本稿では,50の高校レベルの単語問題を用いた大規模言語モデル(LLM)の数学的推論能力について検討する。最終回答と解決手順の両方を厳格に分析して、推論の失敗を特定します。より新しいモデル(例えば、o3-mini、deepseek-r1)はより精度が高いが、全てのモデルは空間的推論、戦略的計画、算術における誤りを示す。
論文参考訳（メタデータ） (2025-02-17T09:07:32Z)
MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文参考訳（メタデータ） (2025-02-10T13:31:46Z)
ProcessBench: Identifying Process Errors in Mathematical Reasoning [62.80402845414901]
本稿では,数学的推論における誤ったステップを識別する能力を測定するためのProcessBenchを紹介する。 ProcessBenchは3400のテストケースで構成され、主に競合とオリンピアードレベルの数学問題に焦点を当てている。我々はProcessBenchについて、プロセス報酬モデル(PRM)と批判モデルという2種類のモデルを含む広範囲な評価を行う。
論文参考訳（メタデータ） (2024-12-09T15:11:40Z)
MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。しかし、数学的な問題を解く能力は依然として不十分である。高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文参考訳（メタデータ） (2024-03-05T11:42:59Z)
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文参考訳（メタデータ） (2024-02-29T15:26:14Z)
Brain-Inspired Two-Stage Approach: Enhancing Mathematical Reasoning by Imitating Human Thought Processes [6.512667145063511]
本稿では,人間の思考過程を模倣し,数学的推論能力を高める新しい手法であるBrainを提案する。まず,コードLLaMA 7Bをベースとしたモデルと比較し,SOTAの性能を評価する。第二に、計画が自然言語、コード、形式言語から明示的に抽出できることが分かる。
論文参考訳（メタデータ） (2024-02-23T17:40:31Z)
InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning [98.53491178426492]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文参考訳（メタデータ） (2024-02-09T11:22:08Z)
ALERT: Adapting Language Models to Reasoning Tasks [43.8679673685468]
ALERTは、言語モデルの推論能力を評価するためのベンチマークと分析スイートである。 ALERTは、あらゆる言語モデルに対して、きめ細かい推論スキルを評価するためのテストベッドを提供する。言語モデルは、事前学習状態と比較して、微調整段階の推論スキルを学習する。
論文参考訳（メタデータ） (2022-12-16T05:15:41Z)
Solving Quantitative Reasoning Problems with Language Models [53.53969870599973]
我々は、一般的な自然言語データに基づいて事前訓練された大規模言語モデルであるMinervaを紹介し、さらに技術的な内容について訓練する。このモデルは、外部ツールを使わずに、技術的ベンチマークで最先端のパフォーマンスを達成する。我々はまた、物理学、生物学、化学、経済学、その他の科学における200以上の学部レベルの問題に対して、我々のモデルを評価した。
論文参考訳（メタデータ） (2022-06-29T18:54:49Z)
Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文参考訳（メタデータ） (2022-06-06T03:38:36Z)
Towards Tractable Mathematical Reasoning: Challenges, Strategies, and Opportunities for Solving Math Word Problems [4.309840398782996]
自然言語を用いた数学単語問題の解法として,非神経的・神経的手法を検証した。これらの手法が一般化可能であり、数学的に合理的であり、解釈可能であり、説明可能であることを強調する。技術的アプローチについて議論し、MWPを解くための直感的な設計選択の進化を概観し、数学的推論能力について検討する。
論文参考訳（メタデータ） (2021-10-29T05:20:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。