論文の概要: A Symbolic Framework for Evaluating Mathematical Reasoning and Generalisation with Transformers
- arxiv url: http://arxiv.org/abs/2305.12563v2
- Date: Mon, 8 Apr 2024 14:29:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 05:27:02.473247
- Title: A Symbolic Framework for Evaluating Mathematical Reasoning and Generalisation with Transformers
- Title(参考訳): 変圧器を用いた数学的推論と一般化のための記号的枠組み
- Authors: Jordan Meadows, Marco Valentino, Damien Teney, Andre Freitas,
- Abstract要約: 我々は変圧器の分布外数学的推論問題への一般化性を評価する。
GPT-4, GPT-3.5, 細調整BERTモデルのキャノンの比較を行った。
驚いたことに, 細調整モデルの平均分布性能がGPT-3.5を超え, ライバルのGPT-4を上回っていることが判明した。
- 参考スコア(独自算出の注目度): 17.075558137261986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a methodology for generating and perturbing detailed derivations of equations at scale, aided by a symbolic engine, to evaluate the generalisability of Transformers to out-of-distribution mathematical reasoning problems. Instantiating the framework in the context of sequence classification tasks, we compare the capabilities of GPT-4, GPT-3.5, and a canon of fine-tuned BERT models, exploring the relationship between specific operators and generalisation failure via the perturbation of reasoning aspects such as symmetry and variable surface forms. Surprisingly, our empirical evaluation reveals that the average in-distribution performance of fine-tuned models surpasses GPT-3.5, and rivals GPT-4. However, perturbations to input reasoning can reduce their performance by up to 80 F1 points. Overall, the results suggest that the in-distribution performance of smaller open-source models may potentially rival GPT by incorporating appropriately structured derivation dependencies during training, and highlight a shared weakness between BERT and GPT involving a relative inability to decode indirect references to mathematical entities. We release the full codebase, constructed datasets, and fine-tuned models to encourage future progress in the field.
- Abstract(参考訳): 本稿では,代用変圧器の数学推論問題への一般化性を評価するために,記号エンジンによって支援された大規模方程式の詳細な導出を予測・摂動する手法を提案する。
GPT-4, GPT-3.5, および細調整されたBERTモデルのキャノンを比較し, 対称性や変数表面形状などの推論面の摂動を通じて, 特定の演算子と一般化失敗の関係を探索する。
意外なことに、我々の経験的評価は、微調整モデルの平均分布性能がGPT-3.5を超え、GPT-4に匹敵することを示している。
しかし、入力推論に対する摂動は、その性能を最大80F1ポイント削減することができる。
以上の結果から,より小規模なオープンソースモデルの分散性能は,トレーニング中に適切に構造化された導出依存性を組み込むことによって,GPTと競合する可能性が示唆され,数学的実体への間接的参照を復号できないようなBERTとGPTの共通弱点が浮き彫りにされている。
この分野における今後の進歩を促進するために、コードベース全体、構築されたデータセット、微調整されたモデルをリリースします。
関連論文リスト
- HG-Adapter: Improving Pre-Trained Heterogeneous Graph Neural Networks with Dual Adapters [53.97380482341493]
事前学習, 即時学習」は, 事前学習したヘテロジニアスグラフニューラルネットワーク(HGNN)のチューニング性能を示す。
本稿では、2つの新しいアダプタと潜在的ラベル付きデータ拡張を組み合わせた統合フレームワークを提案し、事前学習されたHGNNモデルの一般化を改善する。
論文 参考訳(メタデータ) (2024-11-02T06:43:54Z) - Fairness-Aware Estimation of Graphical Models [13.39268712338485]
本稿では,グラフィカルモデル(GM)の推定における公平性の問題について検討する。
標準GMは、特に基礎となるデータが機密性や保護されたグループに関わる場合、バイアスのある結果をもたらす可能性がある。
本稿では,保護属性に関連するGMの推定におけるバイアス低減を目的とした包括的フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-30T16:30:00Z) - Learn to Preserve and Diversify: Parameter-Efficient Group with Orthogonal Regularization for Domain Generalization [28.977757627384165]
ドメイン・ドメイン(DG)は、限られたトレーニングデータと見つからないテストデータの間の分散シフトが発生したとき、モデルの性能劣化を避けることを目的としている。
近年、膨大なパラメータを持つ基礎モデルは、膨大なデータセットで事前訓練されており、強力な一般化能力を示している。
我々のフレームワークは5つのDGベンチマークでSOTA性能を実現し、テストコストを増すことなく少数のパラメータをトレーニングするのみである。
論文 参考訳(メタデータ) (2024-07-21T07:50:49Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Aggregation Weighting of Federated Learning via Generalization Bound
Estimation [65.8630966842025]
フェデレートラーニング(FL)は通常、サンプル比率によって決定される重み付けアプローチを使用して、クライアントモデルパラメータを集約する。
上記の重み付け法を,各局所モデルの一般化境界を考慮した新しい戦略に置き換える。
論文 参考訳(メタデータ) (2023-11-10T08:50:28Z) - Generating Mathematical Derivations with Large Language Models [2.363388546004777]
シンボリックエンジンを利用して、スケールでの方程式の導出を生成する。
目的方程式を前提から導出する際の大規模言語モデルの能力について検討する。
論文 参考訳(メタデータ) (2023-07-19T14:13:02Z) - Towards Principled Disentanglement for Domain Generalization [90.9891372499545]
機械学習モデルの根本的な課題は、アウト・オブ・ディストリビューション(OOD)データへの一般化である。
私たちはまず、DEC(Disentanglement-Constrained Domain Generalization)と呼ばれる制約付き最適化としてOOD一般化問題を定式化する。
この変換に基づいて、結合表現の不絡合と領域一般化のための原始双対アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-27T07:36:32Z) - Theory-guided Auto-Encoder for Surrogate Construction and Inverse
Modeling [0.0]
このフレームワークは畳み込みニューラルネットワーク(CNN)のAuto-Encoderアーキテクチャに基づいている。
研究された問題の統治方程式は離散化することができ、方程式の有限差分スキームはCNNの訓練に組み込むことができる。
トレーニングされたTgAEは、モデルパラメータとレスポンスの関係を限定ラベル付きデータで近似するサロゲートを構築するために使用することができる。
論文 参考訳(メタデータ) (2020-11-17T13:23:03Z) - Generalization Properties of Optimal Transport GANs with Latent
Distribution Learning [52.25145141639159]
本研究では,潜伏分布とプッシュフォワードマップの複雑さの相互作用が性能に与える影響について検討する。
我々の分析に感銘を受けて、我々はGANパラダイム内での潜伏分布とプッシュフォワードマップの学習を提唱した。
論文 参考訳(メタデータ) (2020-07-29T07:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。