論文の概要: Generating Mathematical Derivations with Large Language Models
- arxiv url: http://arxiv.org/abs/2307.09998v3
- Date: Tue, 8 Aug 2023 12:23:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 16:26:52.939574
- Title: Generating Mathematical Derivations with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた数学的導出の生成
- Authors: Jordan Meadows, Marco Valentino, Andre Freitas
- Abstract要約: シンボリックエンジンを利用して、スケールでの方程式の導出を生成する。
目的方程式を前提から導出する際の大規模言語モデルの能力について検討する。
- 参考スコア(独自算出の注目度): 2.363388546004777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The derivation of mathematical results in specialised fields, using Large
Language Models (LLMs), is an emerging research direction that can help
identify models' limitations, and potentially support mathematical discovery.
In this paper, we leverage a symbolic engine to generate derivations of
equations at scale, and investigate the capabilities of LLMs when deriving goal
equations from premises. Specifically, we employ in-context learning for GPT
and fine-tune a range of T5 models to compare the robustness and generalisation
of pre-training strategies to specialised models. Empirical results show that
fine-tuned FLAN-T5-large (MathT5) outperforms GPT models on all static and
out-of-distribution test sets in conventional scores. However, an in-depth
analysis reveals that the fine-tuned models are more sensitive to perturbations
involving unseen symbols and (to a lesser extent) changes to equation
structure. In addition, we analyse 1.7K equations, and over 200 derivations, to
highlight common reasoning errors such as the inclusion of incorrect,
irrelevant, and redundant equations. Finally, we explore the suitability of
existing metrics for evaluating mathematical derivations and find evidence
that, while they can capture general properties such as sensitivity to
perturbations, they fail to highlight fine-grained reasoning errors and
essential differences between models. Overall, this work demonstrates that
training models on synthetic data may improve their math capabilities beyond
much larger LLMs, but current metrics are not appropriately assessing the
quality of generated mathematical text.
- Abstract(参考訳): LLM(Large Language Models)を用いた特殊分野における数学的結果の導出は、モデルの限界を識別し、数学的発見を支援するための新たな研究方向である。
本稿では,記号エンジンを用いて大規模方程式の導出を行い,目的方程式を前提から導出する際の LLM の機能について検討する。
具体的には,事前学習戦略の頑健さと一般化を特殊化モデルと比較するため,GPTの文脈内学習とT5モデルの微調整を行う。
実験結果から,FLAN-T5-large (MathT5) は従来のスコアにおいて,全ての静的および分布外テストセットにおいてGPTモデルよりも優れていた。
しかし、詳細な分析により、微調整されたモデルは、見当たらない記号を含む摂動や(より少ない範囲で)方程式構造の変化に対してより敏感であることが明らかになった。
さらに、1.7Kの方程式と200以上の導出を解析し、誤り、無関係、冗長な方程式を含むような一般的な推論誤差を強調する。
最後に、数学的導出を評価するための既存の指標の適合性について検討し、摂動に対する感度などの一般的な特性を捉えることができるが、詳細な推論誤差やモデル間の本質的な差異を強調できないことを示す。
全体として、この研究は合成データのトレーニングモデルがより大きなLLMよりも数学能力を向上することを示したが、現在のメトリクスは生成した数学的テキストの品質を適切に評価していない。
関連論文リスト
- Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [64.83955753606443]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。
現在のエラー分類法は静的および事前定義されたカテゴリに依存している。
MWPES-300Kは,304,865個のエラーサンプルを含む包括的データセットである。
論文 参考訳(メタデータ) (2025-01-26T16:17:57Z) - Visual Error Patterns in Multi-Modal AI: A Statistical Approach [0.0]
MLLM(Multi-modal large language model)は、テキストと視覚データの統合に優れるが、曖昧さや不完全な視覚刺激を解釈する際に体系的な課題に直面する。
本研究では3D、回転、顔と面の欠如といった特徴を特徴とする幾何的刺激のデータセットを用いて、統計モデルを用いてこれらの誤差を駆動する要因を分析する。
論文 参考訳(メタデータ) (2024-11-27T01:20:08Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - SLEM: Machine Learning for Path Modeling and Causal Inference with Super
Learner Equation Modeling [3.988614978933934]
因果推論は科学の重要な目標であり、研究者は観測データを使って意味のある結論に達することができる。
経路モデル、構造方程式モデル(SEM)および指向非巡回グラフ(DAG)は、現象の根底にある因果構造に関する仮定を明確に特定する手段を提供する。
本稿では,機械学習のスーパーラーナーアンサンブルを統合したパスモデリング手法であるSuper Learner Equation Modelingを提案する。
論文 参考訳(メタデータ) (2023-08-08T16:04:42Z) - A Mechanistic Interpretation of Arithmetic Reasoning in Language Models
using Causal Mediation Analysis [128.0532113800092]
算数問題に対するトランスフォーマーに基づくLMの機械的解釈を提案する。
これにより、算術に関連する情報がLMによってどのように処理されるかについての洞察が得られる。
論文 参考訳(メタデータ) (2023-05-24T11:43:47Z) - A Symbolic Framework for Evaluating Mathematical Reasoning and Generalisation with Transformers [17.075558137261986]
我々は変圧器の分布外数学的推論問題への一般化性を評価する。
GPT-4, GPT-3.5, 細調整BERTモデルのキャノンの比較を行った。
驚いたことに, 細調整モデルの平均分布性能がGPT-3.5を超え, ライバルのGPT-4を上回っていることが判明した。
論文 参考訳(メタデータ) (2023-05-21T20:40:37Z) - MAUVE Scores for Generative Models: Theory and Practice [95.86006777961182]
本報告では,テキストや画像の生成モデルで発生するような分布のペア間の比較尺度であるMAUVEについて述べる。
我々は、MAUVEが人間の文章の分布と現代のニューラル言語モデルとのギャップを定量化できることを発見した。
我々は、MAUVEが既存のメトリクスと同等以上の画像の既知の特性を識別できることを視覚領域で実証する。
論文 参考訳(メタデータ) (2022-12-30T07:37:40Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - GAM(e) changer or not? An evaluation of interpretable machine learning
models based on additive model constraints [5.783415024516947]
本稿では,一連の固有解釈可能な機械学習モデルについて検討する。
5つのGAMの予測特性を従来のMLモデルと比較した。
論文 参考訳(メタデータ) (2022-04-19T20:37:31Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - PermuteAttack: Counterfactual Explanation of Machine Learning Credit
Scorecards [0.0]
本稿では、金融における小売クレジットスコアリングに使用される機械学習(ML)モデルの検証と説明のための新しい方向性と方法論について述べる。
提案するフレームワークは人工知能(AI)のセキュリティと敵MLの分野からモチベーションを引き出す。
論文 参考訳(メタデータ) (2020-08-24T00:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。