論文の概要: MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs
- arxiv url: http://arxiv.org/abs/2410.13502v3
- Date: Fri, 14 Feb 2025 18:15:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 18:05:58.597808
- Title: MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs
- Title(参考訳): MathGAP:任意複雑証明問題に対するアウト・オブ・ディストリビューション評価
- Authors: Andreas Opedal, Haruki Shirakami, Bernhard Schölkopf, Abulhair Saparov, Mrinmaya Sachan,
- Abstract要約: MathGAPは、それらの算術的証明構造に関する仕様に従って、問題文と連鎖推論トレースを生成する。
MathGAP を用いて, LLM はより深く, より広くなるにつれて, 性能が著しく低下することがわかった。
- 参考スコア(独自算出の注目度): 80.96119560172224
- License:
- Abstract: Large language models (LLMs) can solve arithmetic word problems with high accuracy, but little is known about how well they generalize to more complex problems. This is difficult to study, as (i) much of the available evaluation data has already been seen by the most capable models during training, and (ii) existing benchmarks do not capture how problem proofs may be arbitrarily complex in various ways. In this paper, we present a data-generation framework for evaluating LLMs on problems with arbitrarily complex arithmetic proofs, called MathGAP. MathGAP generates problem statements and chain-of-thought reasoning traces according to specifications about their arithmetic proof structure, enabling systematic studies on easy-to-hard generalization with respect to complexity of proof trees. Using MathGAP, we find that LLMs show a significant decrease in performance as proofs get deeper and wider. This effect is more pronounced in complex, nonlinear proof structures, which are challenging even for the most capable models. The models are also sensitive to simple changes in sentence ordering. However, they remain capable of solving some complex problems, suggesting that reasoning generalization is noisy.
- Abstract(参考訳): 大規模言語モデル(LLM)は算術語問題を高い精度で解くことができるが、より複雑な問題にどのように一般化するかは分かっていない。
これは勉強が難しい。
(i)利用可能な評価データの多くは、トレーニング中に最も有能なモデルによって既に見られているもので、
(ii) 既存のベンチマークは、様々な方法で問題証明が任意に複雑になる可能性を捉えていない。
本稿では、任意に複雑な算術証明(MathGAP)による問題に対してLLMを評価するためのデータ生成フレームワークを提案する。
MathGAPは、それらの算術的証明構造に関する仕様に従って問題文と連鎖的推論トレースを生成し、証明木の複雑さに関する簡単でハードな一般化に関する体系的な研究を可能にする。
MathGAP を用いて, LLM は証明がより深く, より広くなるにつれて, 性能が著しく低下することがわかった。
この効果は、より複雑で非線形な証明構造においてより顕著であり、最も有能なモデルでも困難である。
モデルは、文順の単純な変化にも敏感である。
しかし、それらはいくつかの複雑な問題を解くことができ、一般化の推論がうるさいことを示唆している。
関連論文リスト
- MathConstruct: Challenging LLM Reasoning with Constructive Proofs [0.9320657506524149]
mcは、様々な数学コンペから得られた126の課題の新しいベンチマークである。
mcは、解の正確性を容易に検証できるため、大規模言語モデルの評価に適している。
論文 参考訳(メタデータ) (2025-02-14T14:44:22Z) - MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。
また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文 参考訳(メタデータ) (2025-02-10T13:31:46Z) - GSM-Infinite: How Do Your LLMs Behave over Infinitely Increasing Context Length and Reasoning Complexity? [37.399561533852506]
微粒化制御下での難易度と文脈長を無限に低減した算術問題を生成することができる小学校数学問題生成装置を開発した。
複雑性が増大するにつれて、推論性能が一貫したシグマノイドの低下と、体系的な推論スケーリングの傾向が見られます。
論文 参考訳(メタデータ) (2025-02-07T17:05:25Z) - Unraveling Arithmetic in Large Language Models: The Role of Algebraic Structures [3.181878085746691]
大型言語モデル (LLM) は顕著な数学的能力を示しており、主にチェーン・オブ・シント (CoT) のプロンプトによって駆動されている。
本稿では,emphCommutativity やemphIdentity などの代数的構造を捉えることによって,LLM が算術を学習することを提案する。
この結果から,代数的構造を活用することでLLMの算術的能力が向上し,算術的性能向上への洞察が得られた。
論文 参考訳(メタデータ) (2024-11-25T10:23:11Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - MUSTARD: Mastering Uniform Synthesis of Theorem and Proof Data [85.50740598523818]
MUSTARDは、高品質で多様性のある定理と証明データの均一な合成をマスターするフレームワークである。
5,866個の有効なデータポイントを持つMUSTARDSAUCEベンチマークを示す。
我々は広範囲な解析を行い、MUSTARDが検証された高品質なステップバイステップデータを生成することを示す。
論文 参考訳(メタデータ) (2024-02-14T05:57:58Z) - CHAMP: A Competition-level Dataset for Fine-Grained Analyses of LLMs' Mathematical Reasoning Capabilities [25.857946070979576]
概念とHint-Annotated Math Problems (CHAMP) は、概念に注釈を付けた高校数学の競争問題である。
このベンチマークは困難で、最高のモデルは標準設定で58.1%しか得点できない。
モデルはしばしば、間違った推論ステップを通じて、正しい最終回答に到達します。
論文 参考訳(メタデータ) (2024-01-13T03:18:16Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z) - Testing the General Deductive Reasoning Capacity of Large Language
Models Using OOD Examples [36.63316546586304]
大型言語モデル(LLM)は、チェーン・オブ・シークレットのプロンプトを与えられた抽象的推論能力を持つ。
我々は、幅広い推論規則を検証し、より単純な実演からより複雑な証明に一般化する能力を測定する。
様々な大きさのLLMと訓練目的の4つの実験により、合成証明に一般化できることが示されている。
論文 参考訳(メタデータ) (2023-05-24T15:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。