Fugu-MT 論文翻訳(概要): Generating Mathematical Derivations with Large Language Models

論文の概要: Generating Mathematical Derivations with Large Language Models

arxiv url: http://arxiv.org/abs/2307.09998v3
Date: Tue, 8 Aug 2023 12:23:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-09 16:26:52.939574
Title: Generating Mathematical Derivations with Large Language Models
Title（参考訳）: 大規模言語モデルを用いた数学的導出の生成
Authors: Jordan Meadows, Marco Valentino, Andre Freitas
Abstract要約: シンボリックエンジンを利用して、スケールでの方程式の導出を生成する。目的方程式を前提から導出する際の大規模言語モデルの能力について検討する。
参考スコア（独自算出の注目度）: 2.363388546004777
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The derivation of mathematical results in specialised fields, using Large Language Models (LLMs), is an emerging research direction that can help identify models' limitations, and potentially support mathematical discovery. In this paper, we leverage a symbolic engine to generate derivations of equations at scale, and investigate the capabilities of LLMs when deriving goal equations from premises. Specifically, we employ in-context learning for GPT and fine-tune a range of T5 models to compare the robustness and generalisation of pre-training strategies to specialised models. Empirical results show that fine-tuned FLAN-T5-large (MathT5) outperforms GPT models on all static and out-of-distribution test sets in conventional scores. However, an in-depth analysis reveals that the fine-tuned models are more sensitive to perturbations involving unseen symbols and (to a lesser extent) changes to equation structure. In addition, we analyse 1.7K equations, and over 200 derivations, to highlight common reasoning errors such as the inclusion of incorrect, irrelevant, and redundant equations. Finally, we explore the suitability of existing metrics for evaluating mathematical derivations and find evidence that, while they can capture general properties such as sensitivity to perturbations, they fail to highlight fine-grained reasoning errors and essential differences between models. Overall, this work demonstrates that training models on synthetic data may improve their math capabilities beyond much larger LLMs, but current metrics are not appropriately assessing the quality of generated mathematical text.
Abstract（参考訳）: LLM(Large Language Models)を用いた特殊分野における数学的結果の導出は、モデルの限界を識別し、数学的発見を支援するための新たな研究方向である。本稿では,記号エンジンを用いて大規模方程式の導出を行い,目的方程式を前提から導出する際の LLM の機能について検討する。具体的には,事前学習戦略の頑健さと一般化を特殊化モデルと比較するため,GPTの文脈内学習とT5モデルの微調整を行う。実験結果から,FLAN-T5-large (MathT5) は従来のスコアにおいて,全ての静的および分布外テストセットにおいてGPTモデルよりも優れていた。しかし、詳細な分析により、微調整されたモデルは、見当たらない記号を含む摂動や(より少ない範囲で)方程式構造の変化に対してより敏感であることが明らかになった。さらに、1.7Kの方程式と200以上の導出を解析し、誤り、無関係、冗長な方程式を含むような一般的な推論誤差を強調する。最後に、数学的導出を評価するための既存の指標の適合性について検討し、摂動に対する感度などの一般的な特性を捉えることができるが、詳細な推論誤差やモデル間の本質的な差異を強調できないことを示す。全体として、この研究は合成データのトレーニングモデルがより大きなLLMよりも数学能力を向上することを示したが、現在のメトリクスは生成した数学的テキストの品質を適切に評価していない。

関連論文リスト

When can isotropy help adapt LLMs' next word prediction to numerical domains? [53.98633183204453]
文脈埋め込み空間におけるLLM埋め込みの等方性は表現の基盤構造を保存することが示されている。実験により、数値データとモデルアーキテクチャの異なる特性が等方性に異なる影響があることが示されている。
論文参考訳（メタデータ） (2025-05-22T05:10:34Z)
Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic Templatisation and Orthographic Obfuscation [1.2576388595811496]
本稿では,モデル性能推定における暗記の影響を低減する言語推論問題を生成するための枠組みを提案する。このフレームワークを言語推論のための挑戦的なベンチマークであるlingOLY-TOOの開発に適用する。
論文参考訳（メタデータ） (2025-03-04T19:57:47Z)
Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [64.83955753606443]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。現在のエラー分類法は静的および事前定義されたカテゴリに依存している。 MWPES-300Kは,304,865個のエラーサンプルを含む包括的データセットである。
論文参考訳（メタデータ） (2025-01-26T16:17:57Z)
Visual Error Patterns in Multi-Modal AI: A Statistical Approach [0.0]
MLLM(Multi-modal large language model)は、テキストと視覚データの統合に優れるが、曖昧さや不完全な視覚刺激を解釈する際に体系的な課題に直面する。本研究では3D、回転、顔と面の欠如といった特徴を特徴とする幾何的刺激のデータセットを用いて、統計モデルを用いてこれらの誤差を駆動する要因を分析する。
論文参考訳（メタデータ） (2024-11-27T01:20:08Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文参考訳（メタデータ） (2024-05-01T15:59:00Z)
Shape Arithmetic Expressions: Advancing Scientific Discovery Beyond Closed-Form Equations [56.78271181959529]
GAM(Generalized Additive Models)は、変数とターゲットの間の非線形関係をキャプチャできるが、複雑な特徴相互作用をキャプチャすることはできない。本稿では,GAMのフレキシブルな形状関数と,数学的表現に見られる複雑な特徴相互作用を融合させる形状表現算術(SHARE)を提案する。また、標準制約を超えた表現の透明性を保証するSHAREを構築するための一連のルールを設計する。
論文参考訳（メタデータ） (2024-04-15T13:44:01Z)
Wasserstein proximal operators describe score-based generative models and resolve memorization [12.321631823103894]
We first formulate SGMs with terms of Wasserstein proximal operator (WPO) We show that WPO describe the inductive bias of diffusion and score-based model。本稿では,SGMの性能を劇的に向上させる,スコア関数の解釈可能なカーネルベースモデルを提案する。
論文参考訳（メタデータ） (2024-02-09T03:33:13Z)
On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。本研究は,専門家の選択に重要な意味を持つ。
論文参考訳（メタデータ） (2024-02-05T12:31:18Z)
Discovering Interpretable Physical Models using Symbolic Regression and Discrete Exterior Calculus [55.2480439325792]
本稿では,記号回帰(SR)と離散指数計算(DEC)を組み合わせて物理モデルの自動発見を行うフレームワークを提案する。 DECは、SRの物理問題への最先端の応用を越えている、場の理論の離散的な類似に対して、ビルディングブロックを提供する。実験データから連続体物理の3つのモデルを再発見し,本手法の有効性を実証する。
論文参考訳（メタデータ） (2023-10-10T13:23:05Z)
Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。 SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文参考訳（メタデータ） (2023-08-08T16:41:16Z)
SLEM: Machine Learning for Path Modeling and Causal Inference with Super Learner Equation Modeling [3.988614978933934]
因果推論は科学の重要な目標であり、研究者は観測データを使って意味のある結論に達することができる。経路モデル、構造方程式モデル(SEM)および指向非巡回グラフ(DAG)は、現象の根底にある因果構造に関する仮定を明確に特定する手段を提供する。本稿では,機械学習のスーパーラーナーアンサンブルを統合したパスモデリング手法であるSuper Learner Equation Modelingを提案する。
論文参考訳（メタデータ） (2023-08-08T16:04:42Z)
A Mechanistic Interpretation of Arithmetic Reasoning in Language Models using Causal Mediation Analysis [128.0532113800092]
算数問題に対するトランスフォーマーに基づくLMの機械的解釈を提案する。これにより、算術に関連する情報がLMによってどのように処理されるかについての洞察が得られる。
論文参考訳（メタデータ） (2023-05-24T11:43:47Z)
A Symbolic Framework for Evaluating Mathematical Reasoning and Generalisation with Transformers [17.075558137261986]
我々は変圧器の分布外数学的推論問題への一般化性を評価する。 GPT-4, GPT-3.5, 細調整BERTモデルのキャノンの比較を行った。驚いたことに, 細調整モデルの平均分布性能がGPT-3.5を超え, ライバルのGPT-4を上回っていることが判明した。
論文参考訳（メタデータ） (2023-05-21T20:40:37Z)
MAUVE Scores for Generative Models: Theory and Practice [95.86006777961182]
本報告では,テキストや画像の生成モデルで発生するような分布のペア間の比較尺度であるMAUVEについて述べる。我々は、MAUVEが人間の文章の分布と現代のニューラル言語モデルとのギャップを定量化できることを発見した。我々は、MAUVEが既存のメトリクスと同等以上の画像の既知の特性を識別できることを視覚領域で実証する。
論文参考訳（メタデータ） (2022-12-30T07:37:40Z)
Lorentz group equivariant autoencoders [6.858459233149096]
Lorentz group autoencoder (LGAE) 正規直交ローレンツ群 $mathrmSO+(2,1)$ に対して自己エンコーダモデル同型を開発する。我々はLHCのジェット機のアーキテクチャと実験結果を示し、いくつかの圧縮、再構成、異常検出の指標に基づいて、グラフと畳み込みニューラルネットワークのベースラインモデルより優れています。
論文参考訳（メタデータ） (2022-12-14T17:19:46Z)
Discover, Explanation, Improvement: An Automatic Slice Detection Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文参考訳（メタデータ） (2022-11-08T19:00:00Z)
Learning Graphical Factor Models with Riemannian Optimization [70.13748170371889]
本稿では,低ランク構造制約下でのグラフ学習のためのフレキシブルなアルゴリズムフレームワークを提案する。この問題は楕円分布のペナルティ化された最大推定値として表される。楕円モデルによく適合する正定行列と定ランクの正半定行列のジオメトリを利用する。
論文参考訳（メタデータ） (2022-10-21T13:19:45Z)
GAM(e) changer or not? An evaluation of interpretable machine learning models based on additive model constraints [5.783415024516947]
本稿では,一連の固有解釈可能な機械学習モデルについて検討する。 5つのGAMの予測特性を従来のMLモデルと比較した。
論文参考訳（メタデータ） (2022-04-19T20:37:31Z)
PermuteAttack: Counterfactual Explanation of Machine Learning Credit Scorecards [0.0]
本稿では、金融における小売クレジットスコアリングに使用される機械学習(ML)モデルの検証と説明のための新しい方向性と方法論について述べる。提案するフレームワークは人工知能(AI)のセキュリティと敵MLの分野からモチベーションを引き出す。
論文参考訳（メタデータ） (2020-08-24T00:05:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。