論文の概要: A Symbolic Framework for Systematic Evaluation of Mathematical Reasoning
with Transformers
- arxiv url: http://arxiv.org/abs/2305.12563v1
- Date: Sun, 21 May 2023 20:40:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 19:33:52.995476
- Title: A Symbolic Framework for Systematic Evaluation of Mathematical Reasoning
with Transformers
- Title(参考訳): 変圧器を用いた数学的推論の体系的評価のための記号的枠組み
- Authors: Jordan Meadows, Marco Valentino, Damien Teney, Andre Freitas
- Abstract要約: 我々は、複雑な数学的導出を生成するためのデータ生成法を考案し、構文、構造、意味論に関してそれらを体系的に摂動する。
次に、次の方程式予測に関する一般的な実験フレームワークをインスタンス化し、体系的な数学的推論とトランスフォーマーエンコーダの一般化を合計200Kの例で評価する。
実験の結果、摂動がパフォーマンスに大きく影響し、F1スコアが97%$から17%$以下に減少することが明らかとなり、推論は数学的作用素の深い理解とは無関係な表面レベルのパターンに支配されていることが示唆された。
- 参考スコア(独自算出の注目度): 14.76726115772225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whether Transformers can learn to apply symbolic rules and generalise to
out-of-distribution examples is an open research question. In this paper, we
devise a data generation method for producing intricate mathematical
derivations, and systematically perturb them with respect to syntax, structure,
and semantics. Our task-agnostic approach generates equations, annotations, and
inter-equation dependencies, employing symbolic algebra for scalable data
production and augmentation. We then instantiate a general experimental
framework on next-equation prediction, assessing systematic mathematical
reasoning and generalisation of Transformer encoders on a total of 200K
examples. The experiments reveal that perturbations heavily affect performance
and can reduce F1 scores of $97\%$ to below $17\%$, suggesting that inference
is dominated by surface-level patterns unrelated to a deeper understanding of
mathematical operators. These findings underscore the importance of rigorous,
large-scale evaluation frameworks for revealing fundamental limitations of
existing models.
- Abstract(参考訳): トランスフォーマーがシンボリックルールを適用し、分散の例に一般化できるかどうかは、オープンリサーチの問題である。
本稿では,複雑な数学的導出を生成するデータ生成法を考案し,構文,構造,意味論に関して体系的に摂動する。
我々のタスク依存アプローチは、スケーラブルなデータ生成と拡張のためにシンボリック代数を用いて、方程式、アノテーション、および方程式間の依存関係を生成する。
次に,次の等式予測に関する一般的な実験枠組みをインスタンス化し,200kの例を用いた系統的数学的推論と変圧器エンコーダの一般化を評価する。
実験の結果、摂動は性能に大きく影響し、f1スコアを$17\%$未満に抑えることが判明し、推論は数学的演算子の深い理解とは無関係な表面レベルのパターンによって支配されていることが示唆された。
これらの知見は、既存のモデルの基本的限界を明らかにするための厳密で大規模な評価フレームワークの重要性を強調している。
関連論文リスト
- Discovering Interpretable Physical Models using Symbolic Regression and
Discrete Exterior Calculus [55.2480439325792]
本稿では,記号回帰(SR)と離散指数計算(DEC)を組み合わせて物理モデルの自動発見を行うフレームワークを提案する。
DECは、SRの物理問題への最先端の応用を越えている、場の理論の離散的な類似に対して、ビルディングブロックを提供する。
実験データから連続体物理の3つのモデルを再発見し,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-10-10T13:23:05Z) - Discovering interpretable elastoplasticity models via the neural
polynomial method enabled symbolic regressions [0.0]
従来のニューラルネットワークの弾塑性モデルは、しばしば解釈可能性に欠けると見なされる。
本稿では,人間専門家が解釈可能な数学的モデルを返す2段階の機械学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-24T22:22:32Z) - Unsupervised Learning of Invariance Transformations [105.54048699217668]
近似グラフ自己同型を見つけるためのアルゴリズムフレームワークを開発する。
重み付きグラフにおける近似自己同型を見つけるために、このフレームワークをどのように利用できるかについて議論する。
論文 参考訳(メタデータ) (2023-07-24T17:03:28Z) - Generating Mathematical Derivations with Large Language Models [2.363388546004777]
シンボリックエンジンを利用して、スケールでの方程式の導出を生成する。
目的方程式を前提から導出する際の大規模言語モデルの能力について検討する。
論文 参考訳(メタデータ) (2023-07-19T14:13:02Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Neural-Network-Directed Genetic Programmer for Discovery of Governing
Equations [0.0]
faiGPは、文法にエンコードされた関数代数の性質を利用するように設計されている。
我々は, トランスクリプトームの研究から適応した多様性指標を含む, 各種正則化剤の影響を定量化する。
論文 参考訳(メタデータ) (2022-03-15T21:28:05Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - PermuteAttack: Counterfactual Explanation of Machine Learning Credit
Scorecards [0.0]
本稿では、金融における小売クレジットスコアリングに使用される機械学習(ML)モデルの検証と説明のための新しい方向性と方法論について述べる。
提案するフレームワークは人工知能(AI)のセキュリティと敵MLの分野からモチベーションを引き出す。
論文 参考訳(メタデータ) (2020-08-24T00:05:13Z) - Modeling Generalization in Machine Learning: A Methodological and
Computational Study [0.8057006406834467]
我々は、機械学習の一般化を評価する際に、トレーニングデータの凸殻の概念を用いる。
機械学習モデルの一般化能力と次元に関するすべての指標との予期せぬ弱い関係を観察する。
論文 参考訳(メタデータ) (2020-06-28T19:06:16Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。