論文の概要: A Symbolic Framework for Evaluating Mathematical Reasoning and Generalisation with Transformers
- arxiv url: http://arxiv.org/abs/2305.12563v2
- Date: Mon, 8 Apr 2024 14:29:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 05:27:02.473247
- Title: A Symbolic Framework for Evaluating Mathematical Reasoning and Generalisation with Transformers
- Title(参考訳): 変圧器を用いた数学的推論と一般化のための記号的枠組み
- Authors: Jordan Meadows, Marco Valentino, Damien Teney, Andre Freitas,
- Abstract要約: 我々は変圧器の分布外数学的推論問題への一般化性を評価する。
GPT-4, GPT-3.5, 細調整BERTモデルのキャノンの比較を行った。
驚いたことに, 細調整モデルの平均分布性能がGPT-3.5を超え, ライバルのGPT-4を上回っていることが判明した。
- 参考スコア(独自算出の注目度): 17.075558137261986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a methodology for generating and perturbing detailed derivations of equations at scale, aided by a symbolic engine, to evaluate the generalisability of Transformers to out-of-distribution mathematical reasoning problems. Instantiating the framework in the context of sequence classification tasks, we compare the capabilities of GPT-4, GPT-3.5, and a canon of fine-tuned BERT models, exploring the relationship between specific operators and generalisation failure via the perturbation of reasoning aspects such as symmetry and variable surface forms. Surprisingly, our empirical evaluation reveals that the average in-distribution performance of fine-tuned models surpasses GPT-3.5, and rivals GPT-4. However, perturbations to input reasoning can reduce their performance by up to 80 F1 points. Overall, the results suggest that the in-distribution performance of smaller open-source models may potentially rival GPT by incorporating appropriately structured derivation dependencies during training, and highlight a shared weakness between BERT and GPT involving a relative inability to decode indirect references to mathematical entities. We release the full codebase, constructed datasets, and fine-tuned models to encourage future progress in the field.
- Abstract(参考訳): 本稿では,代用変圧器の数学推論問題への一般化性を評価するために,記号エンジンによって支援された大規模方程式の詳細な導出を予測・摂動する手法を提案する。
GPT-4, GPT-3.5, および細調整されたBERTモデルのキャノンを比較し, 対称性や変数表面形状などの推論面の摂動を通じて, 特定の演算子と一般化失敗の関係を探索する。
意外なことに、我々の経験的評価は、微調整モデルの平均分布性能がGPT-3.5を超え、GPT-4に匹敵することを示している。
しかし、入力推論に対する摂動は、その性能を最大80F1ポイント削減することができる。
以上の結果から,より小規模なオープンソースモデルの分散性能は,トレーニング中に適切に構造化された導出依存性を組み込むことによって,GPTと競合する可能性が示唆され,数学的実体への間接的参照を復号できないようなBERTとGPTの共通弱点が浮き彫りにされている。
この分野における今後の進歩を促進するために、コードベース全体、構築されたデータセット、微調整されたモデルをリリースします。
関連論文リスト
- Harmonic Loss Trains Interpretable AI Models [13.745919535064429]
ニューラルネットワークと大規模言語モデルのトレーニングにおいて,標準的なクロスエントロピー損失の代替として調和損失を導入する。
まず、アルゴリズム、ビジョン、言語データセット間での調和モデルの性能を検証する。
a) 解釈可能性の向上, (b) 一般化のために少ないデータを必要とすること, (c) グルーキングを減らすこと。
論文 参考訳(メタデータ) (2025-02-03T18:57:17Z) - Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark [53.876493664396506]
ベンチマークは、機械学習アルゴリズムのパフォーマンスの評価、比較の促進、優れたソリューションの特定に不可欠である。
本稿では,関係抽出タスクにおけるエンティティバイアスの問題に対処する。
本稿では,エンティティの代替によって,エンティティ参照と関係型との擬似相関を破る不偏関係抽出ベンチマークDREBを提案する。
DREBの新たなベースラインを確立するために,データレベルとモデルトレーニングレベルを組み合わせたデバイアス手法であるMixDebiasを導入する。
論文 参考訳(メタデータ) (2025-01-02T17:01:06Z) - HG-Adapter: Improving Pre-Trained Heterogeneous Graph Neural Networks with Dual Adapters [53.97380482341493]
事前学習, 即時学習」は, 事前学習したヘテロジニアスグラフニューラルネットワーク(HGNN)のチューニング性能を示す。
本稿では、2つの新しいアダプタと潜在的ラベル付きデータ拡張を組み合わせた統合フレームワークを提案し、事前学習されたHGNNモデルの一般化を改善する。
論文 参考訳(メタデータ) (2024-11-02T06:43:54Z) - Fairness-Aware Estimation of Graphical Models [13.39268712338485]
本稿では,グラフィカルモデル(GM)の推定における公平性の問題について検討する。
標準GMは、特に基礎となるデータが機密性や保護されたグループに関わる場合、バイアスのある結果をもたらす可能性がある。
本稿では,保護属性に関連するGMの推定におけるバイアス低減を目的とした包括的フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-30T16:30:00Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Aggregation Weighting of Federated Learning via Generalization Bound
Estimation [65.8630966842025]
フェデレートラーニング(FL)は通常、サンプル比率によって決定される重み付けアプローチを使用して、クライアントモデルパラメータを集約する。
上記の重み付け法を,各局所モデルの一般化境界を考慮した新しい戦略に置き換える。
論文 参考訳(メタデータ) (2023-11-10T08:50:28Z) - Boosted Control Functions: Distribution generalization and invariance in confounded models [10.503777692702952]
非線形で非同定可能な構造関数が存在する場合でも分布の一般化を可能にする不変性という強い概念を導入する。
フレキシブルな機械学習手法を用いて,ブースト制御関数(BCF)を推定する制御Twicingアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-09T15:43:46Z) - Controlling Equational Reasoning in Large Language Models with Prompt Interventions [3.9735602856280132]
本稿では,Large Language Models (LLMs) における幻覚率を,シンボルデータ生成フレームワークを用いて制御する方法を検討する。
シンボルエンジンを用いて導出タスクのデータを生成し、数学的導出の特徴を摂動させるために目的の介入を適用する。
次に、細調整されたT5モデル、GPTモデル、LLaMaモデルを含む、様々なLLMに対する迅速な介入の効果を評価する。
論文 参考訳(メタデータ) (2023-07-19T14:13:02Z) - Towards Principled Disentanglement for Domain Generalization [90.9891372499545]
機械学習モデルの根本的な課題は、アウト・オブ・ディストリビューション(OOD)データへの一般化である。
私たちはまず、DEC(Disentanglement-Constrained Domain Generalization)と呼ばれる制約付き最適化としてOOD一般化問題を定式化する。
この変換に基づいて、結合表現の不絡合と領域一般化のための原始双対アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-27T07:36:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。