論文の概要: MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs
- arxiv url: http://arxiv.org/abs/2410.13502v1
- Date: Thu, 17 Oct 2024 12:48:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:22:33.915662
- Title: MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs
- Title(参考訳): MathGAP:任意複雑証明問題に対するアウト・オブ・ディストリビューション評価
- Authors: Andreas Opedal, Haruki Shirakami, Bernhard Schölkopf, Abulhair Saparov, Mrinmaya Sachan,
- Abstract要約: 大規模言語モデル(LLM)は、高い精度で算術語問題を解くことができるが、訓練された言語よりも複雑な問題にどのように一般化するかは、ほとんど分かっていない。
本研究では、任意に複雑な算術証明を持つ問題に対してLLMを評価するためのフレームワーク、MathGAPを提案する。
テストされたモデルのうち、ほとんどのモデルでは、証明がより深く、より広くなるにつれて、パフォーマンスが著しく低下していることが分かりました。
- 参考スコア(独自算出の注目度): 80.96119560172224
- License:
- Abstract: Large language models (LLMs) can solve arithmetic word problems with high accuracy, but little is known about how well they generalize to problems that are more complex than the ones on which they have been trained. Empirical investigations of such questions are impeded by two major flaws of current evaluations: (i) much of the evaluation data is contaminated, in the sense that it has already been seen during training, and (ii) benchmark datasets do not capture how problem proofs may be arbitrarily complex in various ways. As a step towards addressing these issues, we present a framework for evaluating LLMs on problems that have arbitrarily complex arithmetic proofs, called MathGAP. MathGAP generates problems that follow fixed proof specifications -- along with chain-of-thought reasoning annotations -- enabling systematic studies on generalization with respect to arithmetic proof complexity. We apply MathGAP to analyze how in-context learning interacts with generalization to problems that have more complex proofs. We find that among the models tested, most show a significant decrease in performance as proofs get deeper and wider. This effect is more pronounced in complex, nonlinear proof structures, which are challenging even for GPT-4o. Surprisingly, providing in-context examples from the same distribution as the test set is not always beneficial for performance. In particular, zero-shot prompting as well as demonstrating a diverse range of examples that are less complex than the test data sometimes yield similar or higher accuracies.
- Abstract(参考訳): 大規模言語モデル(LLM)は、高い精度で算術語問題を解くことができるが、訓練された言語よりも複雑な問題にどのように一般化するかは、ほとんど分かっていない。
このような質問に対する実証的な調査は、現在の評価の2つの重大な欠陥によって妨げられている。
一 評価データの多くは、訓練中に既に見てきたという意味で汚染され、
(ii)ベンチマークデータセットは、様々な方法で問題証明が任意に複雑になる可能性を捉えていない。
これらの問題に対処するためのステップとして、任意に複雑な算術証明を持つ問題に対してLLMを評価するためのフレームワーク、MathGAPを提案する。
MathGAPは、固定された証明仕様に従う問題(チェーン・オブ・ソート・アソシエーション・アノテーション)を生成し、算術的証明の複雑さに関する一般化に関する体系的な研究を可能にする。
我々は、より複雑な証明を持つ問題に対して、文脈内学習が一般化とどのように相互作用するかを分析するためにMathGAPを適用した。
テストされたモデルのうち、ほとんどのモデルでは、証明がより深く、より広くなるにつれて、パフォーマンスが著しく低下していることが分かりました。
この効果は、GPT-4oでさえ難しい複雑な非線形な証明構造においてより顕著である。
驚いたことに、テストセットと同じディストリビューションからコンテキスト内サンプルを提供することは、必ずしもパフォーマンスにとって有益とは限らない。
特に、ゼロショットプロンプトは、テストデータよりも複雑でない多様な例を示すだけでなく、時として同様のあるいは高い精度をもたらすことがある。
関連論文リスト
- LogicPro: Improving Complex Logical Reasoning via Program-Guided Learning [23.987059076950622]
本稿では,プログラム例を通して大規模言語モデル (LLM) の論理的推論を強化するための新しいアプローチであるLogicProを提案する。
私たちは、広く利用可能なアルゴリズム問題とそのコードソリューションを単純に活用することで、これを効果的に実現します。
提案手法はBBH$27$, GSM8K, HellSwag, Logicqa, Reclor, RTEデータセットの複数のモデルの大幅な改善を実現する。
論文 参考訳(メタデータ) (2024-09-19T17:30:45Z) - Chain of Thoughtlessness? An Analysis of CoT in Planning [17.329365493094542]
推論問題におけるLLM(Large Language Model)のパフォーマンスは通常、分布から一般化しない。
本稿では,古典的計画領域であるBlocksworldの問題に対する思考連鎖のケーススタディを示す。
それらのプロンプトが問題クラスに特有である場合、一連の思考プロンプトから有意義なパフォーマンス改善が得られます。
論文 参考訳(メタデータ) (2024-05-08T02:48:28Z) - MUSTARD: Mastering Uniform Synthesis of Theorem and Proof Data [85.50740598523818]
MUSTARDは、高品質で多様性のある定理と証明データの均一な合成をマスターするフレームワークである。
5,866個の有効なデータポイントを持つMUSTARDSAUCEベンチマークを示す。
我々は広範囲な解析を行い、MUSTARDが検証された高品質なステップバイステップデータを生成することを示す。
論文 参考訳(メタデータ) (2024-02-14T05:57:58Z) - CHAMP: A Competition-level Dataset for Fine-Grained Analyses of LLMs' Mathematical Reasoning Capabilities [25.857946070979576]
概念とHint-Annotated Math Problems (CHAMP) は、概念に注釈を付けた高校数学の競争問題である。
このベンチマークは困難で、最高のモデルは標準設定で58.1%しか得点できない。
モデルはしばしば、間違った推論ステップを通じて、正しい最終回答に到達します。
論文 参考訳(メタデータ) (2024-01-13T03:18:16Z) - Testing the General Deductive Reasoning Capacity of Large Language
Models Using OOD Examples [36.63316546586304]
大型言語モデル(LLM)は、チェーン・オブ・シークレットのプロンプトを与えられた抽象的推論能力を持つ。
我々は、幅広い推論規則を検証し、より単純な実演からより複雑な証明に一般化する能力を測定する。
様々な大きさのLLMと訓練目的の4つの実験により、合成証明に一般化できることが示されている。
論文 参考訳(メタデータ) (2023-05-24T15:55:51Z) - Successive Prompting for Decomposing Complex Questions [50.00659445976735]
最近の研究は、大規模言語モデル(LM)の機能を活用して、数ショットで複雑な質問応答を行う。
そこでは、複雑なタスクを単純なタスクに繰り返し分解し、それを解決し、最終解を得るまでプロセスを繰り返します。
我々の最良のモデル(逐次プロンプト付き)は、DROPデータセットの数ショットバージョンにおいて、5%の絶対F1の改善を実現します。
論文 参考訳(メタデータ) (2022-12-08T06:03:38Z) - Shortcomings of Question Answering Based Factuality Frameworks for Error
Localization [51.01957350348377]
質問応答(QA)に基づく事実性指標は、生成した要約の誤り範囲を正しく識別できないことを示す。
このようなローカライゼーションが不十分な理由として,QGモジュールが生成した質問は,非実数的な要約から誤りを継承することが多く,さらに下流モジュールに伝播する。
本実験は,より強力なQAモデルとQGモデルでのみ修正できないQAフレームワークを用いた局所化に関する根本的な問題が存在することを確定的に示す。
論文 参考訳(メタデータ) (2022-10-13T05:23:38Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Formal Mathematics Statement Curriculum Learning [64.45821687940946]
同じ計算予算、専門家の反復、つまり、学習にインターリーブされた証明検索が、証明検索のみを劇的に上回っていることを示す。
また, 難易度が十分に異なる形式文の集合に適用した場合, 専門家の反復により, ますます困難な問題に対するカリキュラムの発見と解決が可能であることも観察した。
論文 参考訳(メタデータ) (2022-02-03T00:17:00Z) - A tetrachotomy of ontology-mediated queries with a covering axiom [1.749935196721634]
我々の懸念は、標準的なデータベースクエリへの記述とそれらの最適な書き換えを介し、クエリに応答する際のデータ複雑さを効率的に決定することである。
我々は、疎結合シロップ(d-シロップ)と呼ばれるブール共役型クエリに焦点を当てる。
一部のd-シロップは指数的な大きさの分解能しか持たないが、そのうちのいくつかは二重指数サイズの正存在量書き換えと単帰的データログ書き換えのみである。
論文 参考訳(メタデータ) (2020-06-07T14:47:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。