Fugu-MT 論文翻訳(概要): How Numerical Precision Affects Mathematical Reasoning Capabilities of LLMs

論文の概要: How Numerical Precision Affects Mathematical Reasoning Capabilities of LLMs

arxiv url: http://arxiv.org/abs/2410.13857v1
Date: Thu, 17 Oct 2024 17:59:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.114963
Title: How Numerical Precision Affects Mathematical Reasoning Capabilities of LLMs
Title（参考訳）: LLMの数学的推論能力に及ぼす数値的精度の影響
Authors: Guhao Feng, Kai Yang, Yuntian Gu, Xinyue Ai, Shengjie Luo, Jiacheng Sun, Di He, Zhenguo Li, Liwei Wang,
Abstract要約: 本稿では,変圧器を用いた大規模言語モデルの数学的タスクにおける有効性に影響を与える重要な要因として,数値的精度を同定する。その結果,数値精度の低いトランスフォーマーでは,繰り返し加算や整数乗算などの算術的なタスクに対処できないことがわかった。対照的に、標準的な数値精度のトランスフォーマーは、モデルサイズを大幅に小さくすることで、これらのタスクを効率的に処理することができる。
参考スコア（独自算出の注目度）: 69.55103380185612
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the remarkable success of Transformer-based Large Language Models (LLMs) across various domains, understanding and enhancing their mathematical capabilities remains a significant challenge. In this paper, we conduct a rigorous theoretical analysis of LLMs' mathematical abilities, with a specific focus on their arithmetic performances. We identify numerical precision as a key factor that influences their effectiveness in mathematical tasks. Our results show that Transformers operating with low numerical precision fail to address arithmetic tasks, such as iterated addition and integer multiplication, unless the model size grows super-polynomially with respect to the input length. In contrast, Transformers with standard numerical precision can efficiently handle these tasks with significantly smaller model sizes. We further support our theoretical findings through empirical experiments that explore the impact of varying numerical precision on arithmetic tasks, providing valuable insights for improving the mathematical reasoning capabilities of LLMs.
Abstract（参考訳）: トランスフォーマーベースの大規模言語モデル(LLM)が様々な領域で顕著に成功したにもかかわらず、それらの数学的能力の理解と強化は依然として大きな課題である。本稿では, LLMの数学的能力の厳密な理論的解析を行い, その算術性能に着目した。我々は,数値的精度を数学的タスクにおけるそれらの有効性に影響を与える重要な要因として同定する。この結果から, モデルサイズが入力長に対して超多項式的に大きくなる限り, 繰り返し加算や整数乗算などの算術的なタスクに, 数値精度の低いトランスフォーマーは対応できないことがわかった。対照的に、標準的な数値精度を持つトランスフォーマーは、モデルサイズを大幅に小さくすることで、これらのタスクを効率的に処理することができる。我々はさらに,数値的精度が算術的タスクに与える影響を探索し,LLMの数学的推論能力を改善する上で有用な知見を提供する経験的実験を通じて,理論的な知見をさらに支援する。

関連論文リスト

When is Task Vector Provably Effective for Model Editing? A Generalization Analysis of Nonlinear Transformers [64.1656365676171]
タスク算術は、タスクベクトルの重み付き和を追加することで、事前訓練されたモデルを編集することを指す。本稿では,非関連タスクと非関連タスクのセットを同時に学習する上で,タスク追加の有効性を理論的に証明する。ドメイン外タスクの否定を実現するために,タスク演算の適切な選択を証明した。
論文参考訳（メタデータ） (2025-04-15T08:04:39Z)
Mathematical Reasoning in Large Language Models: Assessing Logical and Arithmetic Errors across Wide Numerical Ranges [0.0]
GSM-Rangesは、数学問題における数値を体系的に摂動させ、様々な数値スケールでモデルロバスト性を評価するデータセットジェネレータである。また,論理的誤りと非論理的誤りを区別し,推論過程を計算精度以上の精度で評価する手法を提案する。
論文参考訳（メタデータ） (2025-02-12T09:53:10Z)
Unraveling Arithmetic in Large Language Models: The Role of Algebraic Structures [3.181878085746691]
大型言語モデル (LLM) は顕著な数学的能力を示しており、主にチェーン・オブ・シント (CoT) のプロンプトによって駆動されている。本稿では,emphCommutativity やemphIdentity などの代数的構造を捉えることによって,LLM が算術を学習することを提案する。この結果から,代数的構造を活用することでLLMの算術的能力が向上し,算術的性能向上への洞察が得られた。
論文参考訳（メタデータ） (2024-11-25T10:23:11Z)
Executing Arithmetic: Fine-Tuning Large Language Models as Turing Machines [7.695524275630717]
大規模言語モデル(LLM)は、広範囲の自然言語処理と推論タスクで顕著な機能を示している。チューリングマシンをエミュレートすることで,LCMがステップバイステップの計算を実行することを学べる構成可能な算術演算フレームワーク(CAEF)を提案する。評価では, LLaMA 3.1-8B モデル上での7つの一般的な数学的操作に対して, CAEF は100%近い精度を達成している。
論文参考訳（メタデータ） (2024-10-10T13:23:49Z)
Interpreting and Improving Large Language Models in Arithmetic Calculation [72.19753146621429]
大規模言語モデル(LLM)は、多くのアプリケーションにまたがる顕著な可能性を示している。本研究では,LLMが計算を行う特定のメカニズムを明らかにする。 LLMの計算性能を高めるために、これらの必須ヘッド/MLPを選択的に微調整する潜在的な利点について検討する。
論文参考訳（メタデータ） (2024-09-03T07:01:46Z)
Performance Law of Large Language Models [58.32539851241063]
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを導くために用いられる。性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを広範な実験なしで導くのに利用できる。
論文参考訳（メタデータ） (2024-08-19T11:09:12Z)
Dissecting Multiplication in Transformers: Insights into LLMs [23.109124772063574]
本稿では,この領域における変圧器の不完全性を探索し,説明するために,典型的な算術的タスクである整数乗法に焦点を当てる。 n桁整数乗算を行うために訓練されたバニラ変圧器の包括的解析を行う。乗算タスクにおける変換器の性能向上のための改良を提案する。
論文参考訳（メタデータ） (2024-07-22T04:07:26Z)
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文参考訳（メタデータ） (2024-02-29T15:26:14Z)
Generating Mathematical Derivations with Large Language Models [2.363388546004777]
シンボリックエンジンを利用して、スケールでの方程式の導出を生成する。目的方程式を前提から導出する際の大規模言語モデルの能力について検討する。
論文参考訳（メタデータ） (2023-07-19T14:13:02Z)
Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained Models [96.9373147383119]
重みの絡み合いがタスク算術を効果的にするための重要な要素であることを示す。それらの接空間における微調整モデルを線形化することにより、重みの絡み合いを増幅することを示した。これにより、タスク演算ベンチマークや多種多様なモデルで大幅にパフォーマンスが向上する。
論文参考訳（メタデータ） (2023-05-22T08:39:25Z)
Measuring Mathematical Problem Solving With the MATH Dataset [55.4376028963537]
12,500の競合数学問題のデータセットであるMATHを紹介する。各問題には、答えの導出と説明を生成するためのモデルを教えるために使用できる完全なステップバイステップソリューションがあります。また、モデルに数学の基礎を教えるための補助的事前学習データセットも提供します。
論文参考訳（メタデータ） (2021-03-05T18:59:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。