Fugu-MT 論文翻訳(概要): Math Neurosurgery: Isolating Language Models' Math Reasoning Abilities Using Only Forward Passes

論文の概要: Math Neurosurgery: Isolating Language Models' Math Reasoning Abilities Using Only Forward Passes

arxiv url: http://arxiv.org/abs/2410.16930v2
Date: Tue, 18 Feb 2025 19:45:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-20 15:43:05.607724
Title: Math Neurosurgery: Isolating Language Models' Math Reasoning Abilities Using Only Forward Passes
Title（参考訳）: 数学神経外科:前向きパスのみを用いた言語モデルの数学推論能力
Authors: Bryan R. Christ, Zack Gottesman, Jonathan Kropko, Thomas Hartvigsen,
Abstract要約: 数学推論は人工知能の目印であり、数学教育を含むいくつかの領域に影響を及ぼす。大規模言語モデルパラメータ内での数学推論のエンコード方法や、それがモデル内で孤立可能なスキルであるかどうかについて、いくつかの研究がおこなわれている。フォワードパスのみを用いて LLM における算数固有パラメータを分離する計算効率のよい方法である MathNeuro を導入する。 MathNeuroは、パラメータの重要度を計算するために重みとアクティベーションを使用することで、既存の作業の上に構築されている。
参考スコア（独自算出の注目度）: 10.314228434999924
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Math reasoning is an active area of Large Language Model (LLM) research because it is a hallmark of artificial intelligence and has implications in several domains, including math education. However, few works have explored how math reasoning is encoded within LLM parameters and if it is a skill that can be isolated within models. Doing so could allow targeted intervention to improve math performance without altering non-math behavior and foster understanding of how models encode math reasoning. We introduce Math Neurosurgery (MathNeuro), a computationally efficient method we use to isolate math-specific parameters in LLMs using only forward passes. MathNeuro builds on existing work by using weights and activations to calculate parameter importance, but isolates math-specific parameters by filtering out those important for general language tasks. Through pruning parameters MathNeuro identifies, we delete a LLM's math reasoning ability without significantly impacting its general language ability. Scaling the identified parameters by a small constant improves a pretrained or instruction-tuned LLM's performance by 4-17% on GSM8K and 5-35% on MATH while leaving non-math behavior unaltered. MathNeuro is also data efficient: most of its effectiveness holds when identifying math-specific parameters using a single sample. MathNeuro highlights the potential for future work to intervene on math-specific parameters.
Abstract（参考訳）: 数学推論は、人工知能の目印であり、数学教育を含むいくつかの領域に影響を及ぼすため、Large Language Model (LLM)研究の活発な領域である。しかし、LLMパラメータ内での算術的推論のエンコード方法や、モデル内で孤立する技術であるかどうかを調査する研究はほとんどない。そうすることで、非数学的な振る舞いを変えることなく、ターゲットとなる介入が数学のパフォーマンスを改善することができ、モデルが数学推論をエンコードする方法の理解を深めることができる。フォワードパスのみを用いて,LSM内の数学固有のパラメータを分離するための計算効率の良い方法であるMathNeuroを紹介した。 MathNeuroは、パラメータの重要度を計算するために重みとアクティベーションを使用することで、既存の作業の上に構築されている。 MathNeuro氏が特定するプルーニングパラメータにより、LLMの算数推論能力は、その汎用言語能力に大きな影響を及ぼすことなく、削除する。特定パラメータを小さな定数でスケーリングすることで、事前訓練または命令調整されたLLMのパフォーマンスは、GSM8Kで4-17%、MATHで5-35%向上し、非オス動作は未修正のままである。 MathNeuroはデータ効率も優れており、その有効性の大部分は、単一のサンプルを使用して数学固有のパラメータを特定する際に有効である。 MathNeuro氏は、将来の研究が数学固有のパラメータに介入する可能性を強調している。

関連論文リスト

Evaluating Grounded Reasoning by Code-Assisted Large Language Models for Mathematics [15.695635219034328]
この研究は、LLMがプログラムを数学の規則に当てはめている範囲と、それがエンドパフォーマンスにどのように影響するかに焦点を当てている。この結果から,グラウンドリングの分布はLLMの能力と数学問題の難しさに依存することが明らかとなった。 MATH500では、アングラウンドプログラムの割合は半減し、アングラウンドプログラムはASDivの小学校問題と比較して倍増した。
論文参考訳（メタデータ） (2025-04-24T15:34:24Z)
AI-Assisted Generation of Difficult Math Questions [78.7547836422727]
現在の訓練は、数学的推論をコア能力として位置づけている。多様で挑戦的な数学の質問には、控えめな需要がある。本稿では,LLMの強みとHuman-in-the-loopアプローチを組み合わせた設計枠組みを提案する。
論文参考訳（メタデータ） (2024-07-30T17:55:36Z)
Is Your Model Really A Good Math Reasoner? Evaluating Mathematical Reasoning with Checklist [46.670206614087334]
モデルが本当に問題を理解しているなら、さまざまなタスクにまたがって堅牢に適用されるべきである、と私たちは主張する。 MathCheckはタスクの一般化と推論をテストするためのよく設計されたチェックリストである。 MathCheckは真の数学的能力をよく反映し、数学的知性をより線形に表現する。
論文参考訳（メタデータ） (2024-07-11T17:58:58Z)
MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark [82.64129627675123]
MathBenchは、大規模言語モデルの数学的能力を厳格に評価する新しいベンチマークである。 MathBenchは幅広い数学の分野にまたがっており、理論的な理解と実践的な問題解決のスキルの両方を詳細に評価している。
論文参考訳（メタデータ） (2024-05-20T17:52:29Z)
MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。しかし、数学的な問題を解く能力は依然として不十分である。高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文参考訳（メタデータ） (2024-03-05T11:42:59Z)
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文参考訳（メタデータ） (2024-02-29T15:26:14Z)
MATHSENSEI: A Tool-Augmented Large Language Model for Mathematical Reasoning [2.9104279358536647]
数学的推論のためのツール強化された大規模言語モデルであるMathSenseiを提案する。ツールの補完的な利点として、知識検索(Bing Web Search)、プログラムジェネレータ+エグゼキュータ(Python)、記号方程式ソルバ(Wolfram-Alpha API)について検討する。
論文参考訳（メタデータ） (2024-02-27T05:50:35Z)
InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning [98.53491178426492]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文参考訳（メタデータ） (2024-02-09T11:22:08Z)
MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文参考訳（メタデータ） (2023-10-05T17:52:09Z)
WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct [130.37945867605302]
本稿では,大規模言語モデル(LLM)の数学的CoT推論能力を向上させるWizardMathを提案する。注目すべきは、WizardMath-Mistral 7BがトップクラスのオープンソースLLMをはるかに上回り、データ効率が向上したことだ。予備的な調査では、卓越した数学性能を達成する上で、命令の進化とプロセスの監督が重要な役割を担っていることを強調した。
論文参考訳（メタデータ） (2023-08-18T14:23:21Z)
Learning Multi-Step Reasoning by Solving Arithmetic Tasks [6.398022050054328]
本研究では,比較的小さな言語モデルを多段階推論の能力に組み込む方法について検討する。我々は,合成データセットMsAT上でLMを継続的に事前学習することにより,そのような能力を注入することを提案する。提案手法の有効性を示す4つの数学単語問題データセットについて実験を行った。
論文参考訳（メタデータ） (2023-06-02T17:29:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。