Fugu-MT 論文翻訳(概要): MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs

論文の概要: MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs

arxiv url: http://arxiv.org/abs/2410.13502v1
Date: Thu, 17 Oct 2024 12:48:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.909809
Title: MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs
Title（参考訳）: MathGAP:任意複雑証明問題に対するアウト・オブ・ディストリビューション評価
Authors: Andreas Opedal, Haruki Shirakami, Bernhard Schölkopf, Abulhair Saparov, Mrinmaya Sachan,
Abstract要約: 大規模言語モデル(LLM)は、高い精度で算術語問題を解くことができるが、訓練された言語よりも複雑な問題にどのように一般化するかは、ほとんど分かっていない。本研究では、任意に複雑な算術証明を持つ問題に対してLLMを評価するためのフレームワーク、MathGAPを提案する。テストされたモデルのうち、ほとんどのモデルでは、証明がより深く、より広くなるにつれて、パフォーマンスが著しく低下していることが分かりました。
参考スコア（独自算出の注目度）: 80.96119560172224
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large language models (LLMs) can solve arithmetic word problems with high accuracy, but little is known about how well they generalize to problems that are more complex than the ones on which they have been trained. Empirical investigations of such questions are impeded by two major flaws of current evaluations: (i) much of the evaluation data is contaminated, in the sense that it has already been seen during training, and (ii) benchmark datasets do not capture how problem proofs may be arbitrarily complex in various ways. As a step towards addressing these issues, we present a framework for evaluating LLMs on problems that have arbitrarily complex arithmetic proofs, called MathGAP. MathGAP generates problems that follow fixed proof specifications -- along with chain-of-thought reasoning annotations -- enabling systematic studies on generalization with respect to arithmetic proof complexity. We apply MathGAP to analyze how in-context learning interacts with generalization to problems that have more complex proofs. We find that among the models tested, most show a significant decrease in performance as proofs get deeper and wider. This effect is more pronounced in complex, nonlinear proof structures, which are challenging even for GPT-4o. Surprisingly, providing in-context examples from the same distribution as the test set is not always beneficial for performance. In particular, zero-shot prompting as well as demonstrating a diverse range of examples that are less complex than the test data sometimes yield similar or higher accuracies.
Abstract（参考訳）: 大規模言語モデル(LLM)は、高い精度で算術語問題を解くことができるが、訓練された言語よりも複雑な問題にどのように一般化するかは、ほとんど分かっていない。このような質問に対する実証的な調査は、現在の評価の2つの重大な欠陥によって妨げられている。一評価データの多くは、訓練中に既に見てきたという意味で汚染され、 (ii)ベンチマークデータセットは、様々な方法で問題証明が任意に複雑になる可能性を捉えていない。これらの問題に対処するためのステップとして、任意に複雑な算術証明を持つ問題に対してLLMを評価するためのフレームワーク、MathGAPを提案する。 MathGAPは、固定された証明仕様に従う問題(チェーン・オブ・ソート・アソシエーション・アノテーション)を生成し、算術的証明の複雑さに関する一般化に関する体系的な研究を可能にする。我々は、より複雑な証明を持つ問題に対して、文脈内学習が一般化とどのように相互作用するかを分析するためにMathGAPを適用した。テストされたモデルのうち、ほとんどのモデルでは、証明がより深く、より広くなるにつれて、パフォーマンスが著しく低下していることが分かりました。この効果は、GPT-4oでさえ難しい複雑な非線形な証明構造においてより顕著である。驚いたことに、テストセットと同じディストリビューションからコンテキスト内サンプルを提供することは、必ずしもパフォーマンスにとって有益とは限らない。特に、ゼロショットプロンプトは、テストデータよりも複雑でない多様な例を示すだけでなく、時として同様のあるいは高い精度をもたらすことがある。

関連論文リスト

CAMA: Enhancing Mathematical Reasoning in Large Language Models with Causal Knowledge [14.367146529900609]
大規模言語モデル(LLM)は、幅広いタスクにわたって強力なパフォーマンスを示してきたが、複雑な数学的推論に苦戦している。我々は,LLMに明示的で再利用可能な数学的構造を持たせる2段階の因果関係フレームワークであるtextbfCAusal textbfMAthematician (textbfCAMA) を提案する。
論文参考訳（メタデータ） (2025-08-04T16:39:24Z)
Frontier LLMs Still Struggle with Simple Reasoning Tasks [53.497499123166804]
この研究は、フロンティア言語モデルの性能を、幅広い「容易」推論問題に対して研究する。計算,一階述語論理,証明木,旅行計画など,手続き的に生成された単純な推論タスクのスイートを作成します。最先端の思考モデルでさえ、このような問題や同様の理由で一貫して失敗することを示します。
論文参考訳（メタデータ） (2025-07-09T22:22:49Z)
Ineq-Comp: Benchmarking Human-Intuitive Compositional Reasoning in Automated Theorem Proving on Inequalities [45.8704193793732]
LLMベースの形式的証明アシスタント(例:リーン)は、数学的発見の自動化を大いに約束する。これらのシステムは、人間と同じように数学的構造を本当に理解していますか? この問題を数学的不等式のレンズを用いて検討する。
論文参考訳（メタデータ） (2025-05-19T03:56:05Z)
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。 OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文参考訳（メタデータ） (2025-03-27T11:20:17Z)
PromptCoT: Synthesizing Olympiad-level Problems for Mathematical Reasoning in Large Language Models [59.920971312822736]
本稿では,高品質なオリンピアードレベルの数学問題を自動生成する新しい手法であるPromptCoTを紹介する。提案手法は,問題構築の背景にある数学的概念と理論的根拠に基づいて複雑な問題を合成する。提案手法は, GSM8K, MATH-500, AIME2024などの標準ベンチマークで評価され, 既存の問題生成手法を一貫して上回っている。
論文参考訳（メタデータ） (2025-03-04T06:32:30Z)
MathConstruct: Challenging LLM Reasoning with Constructive Proofs [0.9320657506524149]
mcは、様々な数学コンペから得られた126の課題の新しいベンチマークである。 mcは、解の正確性を容易に検証できるため、大規模言語モデルの評価に適している。
論文参考訳（メタデータ） (2025-02-14T14:44:22Z)
MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文参考訳（メタデータ） (2025-02-10T13:31:46Z)
GSM-Infinite: How Do Your LLMs Behave over Infinitely Increasing Context Length and Reasoning Complexity? [37.399561533852506]
微粒化制御下での難易度と文脈長を無限に低減した算術問題を生成することができる小学校数学問題生成装置を開発した。複雑性が増大するにつれて、推論性能が一貫したシグマノイドの低下と、体系的な推論スケーリングの傾向が見られます。
論文参考訳（メタデータ） (2025-02-07T17:05:25Z)
Unraveling Arithmetic in Large Language Models: The Role of Algebraic Structures [2.8311048083168657]
大型言語モデル (LLM) は顕著な数学的能力を示しており、主にチェーン・オブ・シント (CoT) のプロンプトによって駆動されている。 LLMは可換性や恒等性などの代数的構造を捉えることによって算術を学習する。
論文参考訳（メタデータ） (2024-11-25T10:23:11Z)
LogicPro: Improving Complex Logical Reasoning via Program-Guided Learning [23.987059076950622]
本稿では,プログラム例を通して大規模言語モデル (LLM) の論理的推論を強化するための新しいアプローチであるLogicProを提案する。私たちは、広く利用可能なアルゴリズム問題とそのコードソリューションを単純に活用することで、これを効果的に実現します。提案手法はBBH$27$, GSM8K, HellSwag, Logicqa, Reclor, RTEデータセットの複数のモデルの大幅な改善を実現する。
論文参考訳（メタデータ） (2024-09-19T17:30:45Z)
Chain of Thoughtlessness? An Analysis of CoT in Planning [17.329365493094542]
推論問題におけるLLM(Large Language Model)のパフォーマンスは通常、分布から一般化しない。本稿では,古典的計画領域であるBlocksworldの問題に対する思考連鎖のケーススタディを示す。それらのプロンプトが問題クラスに特有である場合、一連の思考プロンプトから有意義なパフォーマンス改善が得られます。
論文参考訳（メタデータ） (2024-05-08T02:48:28Z)
Large Language Models Struggle with Unreasonability in Math Problems [41.970853209666224]
大規模言語モデル(LLM)は、幅広い数学と推論のベンチマークで顕著な成功を収めている。我々は、不合理な数学問題に直面した時にしばしば苦労するのを観察する。我々は,不合理な数学問題文を検出し,応答するLLMの能力を評価するために,textbfUnreasonable Math Problems (UMP)ベンチマークを提案する。
論文参考訳（メタデータ） (2024-03-28T12:04:28Z)
MUSTARD: Mastering Uniform Synthesis of Theorem and Proof Data [85.50740598523818]
MUSTARDは、高品質で多様性のある定理と証明データの均一な合成をマスターするフレームワークである。 5,866個の有効なデータポイントを持つMUSTARDSAUCEベンチマークを示す。我々は広範囲な解析を行い、MUSTARDが検証された高品質なステップバイステップデータを生成することを示す。
論文参考訳（メタデータ） (2024-02-14T05:57:58Z)
CHAMP: A Competition-level Dataset for Fine-Grained Analyses of LLMs' Mathematical Reasoning Capabilities [25.857946070979576]
概念とHint-Annotated Math Problems (CHAMP) は、概念に注釈を付けた高校数学の競争問題である。このベンチマークは困難で、最高のモデルは標準設定で58.1%しか得点できない。モデルはしばしば、間違った推論ステップを通じて、正しい最終回答に到達します。
論文参考訳（メタデータ） (2024-01-13T03:18:16Z)
Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文参考訳（メタデータ） (2023-05-29T23:24:14Z)
Testing the General Deductive Reasoning Capacity of Large Language Models Using OOD Examples [36.63316546586304]
大型言語モデル(LLM)は、チェーン・オブ・シークレットのプロンプトを与えられた抽象的推論能力を持つ。我々は、幅広い推論規則を検証し、より単純な実演からより複雑な証明に一般化する能力を測定する。様々な大きさのLLMと訓練目的の4つの実験により、合成証明に一般化できることが示されている。
論文参考訳（メタデータ） (2023-05-24T15:55:51Z)
Successive Prompting for Decomposing Complex Questions [50.00659445976735]
最近の研究は、大規模言語モデル(LM)の機能を活用して、数ショットで複雑な質問応答を行う。そこでは、複雑なタスクを単純なタスクに繰り返し分解し、それを解決し、最終解を得るまでプロセスを繰り返します。我々の最良のモデル(逐次プロンプト付き)は、DROPデータセットの数ショットバージョンにおいて、5%の絶対F1の改善を実現します。
論文参考訳（メタデータ） (2022-12-08T06:03:38Z)
Shortcomings of Question Answering Based Factuality Frameworks for Error Localization [51.01957350348377]
質問応答(QA)に基づく事実性指標は、生成した要約の誤り範囲を正しく識別できないことを示す。このようなローカライゼーションが不十分な理由として,QGモジュールが生成した質問は,非実数的な要約から誤りを継承することが多く,さらに下流モジュールに伝播する。本実験は,より強力なQAモデルとQGモデルでのみ修正できないQAフレームワークを用いた局所化に関する根本的な問題が存在することを確定的に示す。
論文参考訳（メタデータ） (2022-10-13T05:23:38Z)
Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文参考訳（メタデータ） (2022-05-25T17:37:08Z)
Formal Mathematics Statement Curriculum Learning [64.45821687940946]
同じ計算予算、専門家の反復、つまり、学習にインターリーブされた証明検索が、証明検索のみを劇的に上回っていることを示す。また, 難易度が十分に異なる形式文の集合に適用した場合, 専門家の反復により, ますます困難な問題に対するカリキュラムの発見と解決が可能であることも観察した。
論文参考訳（メタデータ） (2022-02-03T00:17:00Z)
A tetrachotomy of ontology-mediated queries with a covering axiom [1.749935196721634]
我々の懸念は、標準的なデータベースクエリへの記述とそれらの最適な書き換えを介し、クエリに応答する際のデータ複雑さを効率的に決定することである。我々は、疎結合シロップ(d-シロップ)と呼ばれるブール共役型クエリに焦点を当てる。一部のd-シロップは指数的な大きさの分解能しか持たないが、そのうちのいくつかは二重指数サイズの正存在量書き換えと単帰的データログ書き換えのみである。
論文参考訳（メタデータ） (2020-06-07T14:47:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。