Fugu-MT 論文翻訳(概要): Do Large Language Models Truly Grasp Mathematics? An Empirical Exploration From Cognitive Psychology

論文の概要: Do Large Language Models Truly Grasp Mathematics? An Empirical Exploration From Cognitive Psychology

arxiv url: http://arxiv.org/abs/2410.14979v4
Date: Thu, 14 Nov 2024 09:17:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.820677
Title: Do Large Language Models Truly Grasp Mathematics? An Empirical Exploration From Cognitive Psychology
Title（参考訳）: 大規模言語モデルは真にグレープな数学か? : 認知心理学からの実証的な探索
Authors: Wei Xie, Shuoyoucheng Ma, Zhenhua Wang, Enze Wang, Kai Chen, Xiaobing Sun, Baosheng Wang,
Abstract要約: 提案手法は,Chains of Thoughtプロンプトを用いても,修正されたCRT問題を解く際の誤り率が高いことを示す。具体的には、従来の質問と比べて平均精度が最大50%低下した。この発見は、LLMが人間に匹敵する真の数学的推論能力を持っているという信念に挑戦する。
参考スコア（独自算出の注目度）: 13.964263002704582
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The cognitive mechanism by which Large Language Models (LLMs) solve mathematical problems remains a widely debated and unresolved issue. Currently, there is little interpretable experimental evidence that connects LLMs' problem-solving with human cognitive psychology.To determine if LLMs possess human-like mathematical reasoning, we modified the problems used in the human Cognitive Reflection Test (CRT). Our results show that, even with the use of Chains of Thought (CoT) prompts, mainstream LLMs, including the latest o1 model (noted for its reasoning capabilities), have a high error rate when solving these modified CRT problems. Specifically, the average accuracy rate dropped by up to 50% compared to the original questions.Further analysis of LLMs' incorrect answers suggests that they primarily rely on pattern matching from their training data, which aligns more with human intuition (System 1 thinking) rather than with human-like reasoning (System 2 thinking). This finding challenges the belief that LLMs have genuine mathematical reasoning abilities comparable to humans. As a result, this work may adjust overly optimistic views on LLMs' progress towards artificial general intelligence.
Abstract（参考訳）: 大言語モデル(LLM)が数学的問題を解く認知メカニズムは、広く議論され未解決の課題である。現在、LLMの問題解決と人間の認知心理学を結びつける、解釈可能な実験的証拠はほとんどなく、LLMが人間のような数学的推論を持っているかどうかを判断するために、人間の認知反射テスト(CRT)で使用される問題を修正した。提案手法は, 思考の連鎖(CoT)プロンプトを用いても, 最新のo1モデルを含む主流のLSMは, それらの修正されたCRT問題を解く際のエラー率が高いことを示す。特に,従来の質問に比べて平均精度が最大50%低下したことから,LLMの誤答の分析は,人間的な推論(システム2思考)よりも人間の直観(システム1思考)のパターンマッチングに大きく依存していることが示唆された。この発見は、LLMが人間に匹敵する真の数学的推論能力を持っているという信念に挑戦する。結果として、この研究はLLMの人工知能への進歩に関する過度に楽観的な見解を調整することができる。

関連論文リスト

A Matter of Interest: Understanding Interestingness of Math Problems in Humans and Language Models [77.83082730285206]
多くのAIシステムは、興味深いという人間の考えに一致しているが、人間の判断で観察される分布を捉えていない。ほとんどのLSMは、人間がある数学の問題を興味深いと感じる理由と少ししか一致せず、人間の選択した面白さの合理性と弱い相関を示す。
論文参考訳（メタデータ） (2025-11-11T18:28:51Z)
Can Large Models Teach Student Models to Solve Mathematical Problems Like Human Beings? A Reasoning Distillation Method via Multi-LoRA Interaction [6.695255921627406]
大規模言語モデル(LLM)は強力な数学的推論能力を持つが、数十億のパラメータに依存している。既存の手法は通常、LCMを利用して大量のデータを生成してクラミングトレーニングを行う。数学的推論蒸留(LoRID)のためのマルチロラ相互作用に基づく新しい手法を提案する。 LoRIDは、特にGSM8Kデータセット上で、最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-08-18T15:56:10Z)
CogMath: Assessing LLMs' Authentic Mathematical Ability from a Human Cognitive Perspective [68.94793547575343]
CogMathは、人間の推論プロセスを3段階に定式化している。各次元において,この次元からLLMの熟達度を評価する問合せを生成するために,emphInquiry-emphJudge-emphReference'のマルチエージェントシステムの開発を行う。 LLMは、9次元からのすべての問い合わせに優れている場合にのみ、真に問題をマスターすると考えられている。
論文参考訳（メタデータ） (2025-06-04T22:00:52Z)
Have Large Language Models Learned to Reason? A Characterization via 3-SAT Phase Transition [11.422434149376478]
大規模言語モデル(LLM)は高度な推論能力を持つAIモデルとして評価されている。理論上は、Chain-of-Thought (CoT) を用いた自己回帰 LLM は複雑な推論タスクを解くためによりシリアルな計算を行うことができる。近年の研究では、LSMは、この能力にもかかわらず、理性を学ぶのではなく、統計的特徴に適合することが示唆されている。
論文参考訳（メタデータ） (2025-04-04T20:57:36Z)
Brains vs. Bytes: Evaluating LLM Proficiency in Olympiad Mathematics [2.489157527463306]
大規模言語モデル(LLM)は、数学的推論タスクにおいて顕著な進歩を示している。大規模言語モデル(LLM)の最近の進歩は、数学的推論タスクの顕著な進歩を示している。
論文参考訳（メタデータ） (2025-04-01T00:10:10Z)
Making LLMs Reason? The Intermediate Language Problem in Neurosymbolic Approaches [49.567092222782435]
本稿では、ニューロシンボリックアプローチに適した形式言語表現を選択する問題である中間言語問題を紹介する。全体の精度は53.20%、実行精度は49.26%である。 GPT4o-mini LLMを使用すると、ProofWriterデータセットの全体的な精度が21.20%、50.50%向上する。
論文参考訳（メタデータ） (2025-02-24T14:49:52Z)
LLMs can implicitly learn from mistakes in-context [15.818061010632249]
本研究では,Large Language Models (LLMs) が,説明が得られない場合の数学的推論タスクの誤りから学習できるかどうかを検討する。驚くべきことに、LLMは文脈から有理性を取り除いた場合、平均して性能が向上する。このアプローチは、私たちの評価においてチェーン・オブ・シークレット・プロンプトよりも大幅に優れています。
論文参考訳（メタデータ） (2025-02-12T16:31:21Z)
Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文参考訳（メタデータ） (2025-01-30T18:58:18Z)
On Memorization of Large Language Models in Logical Reasoning [70.94164038947078]
大きな言語モデル(LLM)は、挑戦的な推論ベンチマークで優れたパフォーマンスを達成するが、基本的な推論ミスを発生させることもできる。 1つの仮説は、より高度でほぼ飽和した性能は、類似した問題の記憶が原因ではないかというものである。微調整は暗記を重くするが,常に一般化性能を向上することを示す。
論文参考訳（メタデータ） (2024-10-30T15:31:54Z)
LLM The Genius Paradox: A Linguistic and Math Expert's Struggle with Simple Word-based Counting Problems [28.72485319617863]
LLMは、人間が扱いやすいようないくつかの基本的なタスク、例えば単語トラウベリーの文字数rを数えるのに苦労する。我々は,高度な数学的およびコーディング推論能力の伝達可能性について,特殊なLCMから単純なカウントタスクまでの測定を行う。微調整や文脈内学習といった戦略と比較すると、係り受け推論はLLMのタスクをより知覚するのに役立つ最も堅牢で効率的な方法であることがわかる。
論文参考訳（メタデータ） (2024-10-18T04:17:16Z)
Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。既存の数式語問題に対して,それらの性能を併用して評価する。
論文参考訳（メタデータ） (2024-10-02T17:01:10Z)
Cognitive phantoms in LLMs through the lens of latent variables [0.3441021278275805]
大規模言語モデル(LLM)はますます現実のアプリケーションに到達し、それらの振る舞いをよりよく理解する必要がある。近年のLCMに対する心理測定調査では、LLMの人間らしい特徴が報告されており、潜在的に影響する可能性がある。このアプローチは有効性の問題に悩まされており、これらの特性がLLMに存在し、人間用に設計されたツールで測定可能であることを前提としている。本研究では,人間と3人のLDMの潜在的性格構造を2つの評価されたパーソナリティアンケートを用いて比較することにより,この問題を考察する。
論文参考訳（メタデータ） (2024-09-06T12:42:35Z)
Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。 CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文参考訳（メタデータ） (2024-04-23T12:16:05Z)
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文参考訳（メタデータ） (2024-02-29T15:26:14Z)
Do Language Models Exhibit the Same Cognitive Biases in Problem Solving as Human Learners? [140.9751389452011]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。我々は,これらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリックアプローチを用いて,新しい単語問題を生成する。
論文参考訳（メタデータ） (2024-01-31T18:48:20Z)
Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。また,LLMにも同様な自己検証能力があることを示す。
論文参考訳（メタデータ） (2022-12-19T15:51:52Z)
Thinking Fast and Slow in Large Language Models [0.08057006406834465]
大規模言語モデル(LLM)は、現在、人間のコミュニケーションと日常の生活を結び付けるAIシステムの最前線にある。本研究では, GPT-3 のような LLM は人間の直感に類似した行動を示し,それに伴う認知的誤りを示す。
論文参考訳（メタデータ） (2022-12-10T05:07:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。