Fugu-MT 論文翻訳(概要): A Symbolic Framework for Evaluating Mathematical Reasoning and Generalisation with Transformers

論文の概要: A Symbolic Framework for Evaluating Mathematical Reasoning and Generalisation with Transformers

arxiv url: http://arxiv.org/abs/2305.12563v2
Date: Mon, 8 Apr 2024 14:29:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-10 05:27:02.473247
Title: A Symbolic Framework for Evaluating Mathematical Reasoning and Generalisation with Transformers
Title（参考訳）: 変圧器を用いた数学的推論と一般化のための記号的枠組み
Authors: Jordan Meadows, Marco Valentino, Damien Teney, Andre Freitas,
Abstract要約: 我々は変圧器の分布外数学的推論問題への一般化性を評価する。 GPT-4, GPT-3.5, 細調整BERTモデルのキャノンの比較を行った。驚いたことに, 細調整モデルの平均分布性能がGPT-3.5を超え, ライバルのGPT-4を上回っていることが判明した。
参考スコア（独自算出の注目度）: 17.075558137261986
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper proposes a methodology for generating and perturbing detailed derivations of equations at scale, aided by a symbolic engine, to evaluate the generalisability of Transformers to out-of-distribution mathematical reasoning problems. Instantiating the framework in the context of sequence classification tasks, we compare the capabilities of GPT-4, GPT-3.5, and a canon of fine-tuned BERT models, exploring the relationship between specific operators and generalisation failure via the perturbation of reasoning aspects such as symmetry and variable surface forms. Surprisingly, our empirical evaluation reveals that the average in-distribution performance of fine-tuned models surpasses GPT-3.5, and rivals GPT-4. However, perturbations to input reasoning can reduce their performance by up to 80 F1 points. Overall, the results suggest that the in-distribution performance of smaller open-source models may potentially rival GPT by incorporating appropriately structured derivation dependencies during training, and highlight a shared weakness between BERT and GPT involving a relative inability to decode indirect references to mathematical entities. We release the full codebase, constructed datasets, and fine-tuned models to encourage future progress in the field.
Abstract（参考訳）: 本稿では,代用変圧器の数学推論問題への一般化性を評価するために,記号エンジンによって支援された大規模方程式の詳細な導出を予測・摂動する手法を提案する。 GPT-4, GPT-3.5, および細調整されたBERTモデルのキャノンを比較し, 対称性や変数表面形状などの推論面の摂動を通じて, 特定の演算子と一般化失敗の関係を探索する。意外なことに、我々の経験的評価は、微調整モデルの平均分布性能がGPT-3.5を超え、GPT-4に匹敵することを示している。しかし、入力推論に対する摂動は、その性能を最大80F1ポイント削減することができる。以上の結果から,より小規模なオープンソースモデルの分散性能は,トレーニング中に適切に構造化された導出依存性を組み込むことによって,GPTと競合する可能性が示唆され,数学的実体への間接的参照を復号できないようなBERTとGPTの共通弱点が浮き彫りにされている。この分野における今後の進歩を促進するために、コードベース全体、構築されたデータセット、微調整されたモデルをリリースします。

関連論文リスト

Score-Based Model for Low-Rank Tensor Recovery [49.158601255093416]
低ランクテンソル分解(TD)は、マルチウェイデータ解析に有効なフレームワークを提供する。従来のTD法は、CPやタッカー分解のような事前定義された構造的仮定に依存している。本稿では,事前定義された構造的仮定や分布的仮定の必要性を排除したスコアベースモデルを提案する。
論文参考訳（メタデータ） (2025-06-27T15:05:37Z)
Partial Transportability for Domain Generalization [56.37032680901525]
本稿では, 部分的同定と輸送可能性の理論に基づいて, 対象分布の関数値の有界化に関する新たな結果を紹介する。我々の貢献は、輸送可能性問題に対する最初の一般的な評価手法を提供することである。本稿では,スケーラブルな推論を実現するための勾配に基づく最適化手法を提案する。
論文参考訳（メタデータ） (2025-03-30T22:06:37Z)
Harmonic Loss Trains Interpretable AI Models [13.745919535064429]
ニューラルネットワークと大規模言語モデルのトレーニングにおいて,標準的なクロスエントロピー損失の代替として調和損失を導入する。まず、アルゴリズム、ビジョン、言語データセット間での調和モデルの性能を検証する。 a) 解釈可能性の向上, (b) 一般化のために少ないデータを必要とすること, (c) グルーキングを減らすこと。
論文参考訳（メタデータ） (2025-02-03T18:57:17Z)
Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark [53.876493664396506]
ベンチマークは、機械学習アルゴリズムのパフォーマンスの評価、比較の促進、優れたソリューションの特定に不可欠である。本稿では,関係抽出タスクにおけるエンティティバイアスの問題に対処する。本稿では,エンティティの代替によって,エンティティ参照と関係型との擬似相関を破る不偏関係抽出ベンチマークDREBを提案する。 DREBの新たなベースラインを確立するために,データレベルとモデルトレーニングレベルを組み合わせたデバイアス手法であるMixDebiasを導入する。
論文参考訳（メタデータ） (2025-01-02T17:01:06Z)
HG-Adapter: Improving Pre-Trained Heterogeneous Graph Neural Networks with Dual Adapters [53.97380482341493]
事前学習, 即時学習」は, 事前学習したヘテロジニアスグラフニューラルネットワーク(HGNN)のチューニング性能を示す。本稿では、2つの新しいアダプタと潜在的ラベル付きデータ拡張を組み合わせた統合フレームワークを提案し、事前学習されたHGNNモデルの一般化を改善する。
論文参考訳（メタデータ） (2024-11-02T06:43:54Z)
Fairness-Aware Estimation of Graphical Models [13.39268712338485]
本稿では,グラフィカルモデル(GM)の推定における公平性の問題について検討する。標準GMは、特に基礎となるデータが機密性や保護されたグループに関わる場合、バイアスのある結果をもたらす可能性がある。本稿では,保護属性に関連するGMの推定におけるバイアス低減を目的とした包括的フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-30T16:30:00Z)
Learn to Preserve and Diversify: Parameter-Efficient Group with Orthogonal Regularization for Domain Generalization [28.977757627384165]
ドメイン・ドメイン(DG)は、限られたトレーニングデータと見つからないテストデータの間の分散シフトが発生したとき、モデルの性能劣化を避けることを目的としている。近年、膨大なパラメータを持つ基礎モデルは、膨大なデータセットで事前訓練されており、強力な一般化能力を示している。我々のフレームワークは5つのDGベンチマークでSOTA性能を実現し、テストコストを増すことなく少数のパラメータをトレーニングするのみである。
論文参考訳（メタデータ） (2024-07-21T07:50:49Z)
GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。 GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文参考訳（メタデータ） (2024-06-01T08:01:05Z)
Fennec: Fine-grained Language Model Evaluation and Correction Extended through Branching and Bridging [25.078498180620425]
我々は, bntextbfChing および bridging を用いて, textbfFine の粒度のtextbfEvaluatiotextbfN textbfExtended を実現するためのステップバイステップ評価フレームワーク textbfFennec を提案する。評価モデルにより誘導される微粒化補正機能を用いて、複数のモデル応答を洗練し、MT-Bench上の1-2点の改善をもたらす。
論文参考訳（メタデータ） (2024-05-20T16:47:22Z)
A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文参考訳（メタデータ） (2023-11-13T01:48:08Z)
Aggregation Weighting of Federated Learning via Generalization Bound Estimation [65.8630966842025]
フェデレートラーニング(FL)は通常、サンプル比率によって決定される重み付けアプローチを使用して、クライアントモデルパラメータを集約する。上記の重み付け法を,各局所モデルの一般化境界を考慮した新しい戦略に置き換える。
論文参考訳（メタデータ） (2023-11-10T08:50:28Z)
Boosted Control Functions: Distribution generalization and invariance in confounded models [10.503777692702952]
非線形で非同定可能な構造関数が存在する場合でも分布の一般化を可能にする不変性という強い概念を導入する。フレキシブルな機械学習手法を用いて,ブースト制御関数(BCF)を推定する制御Twicingアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-09T15:43:46Z)
Generating Mathematical Derivations with Large Language Models [2.363388546004777]
シンボリックエンジンを利用して、スケールでの方程式の導出を生成する。目的方程式を前提から導出する際の大規模言語モデルの能力について検討する。
論文参考訳（メタデータ） (2023-07-19T14:13:02Z)
Towards Principled Disentanglement for Domain Generalization [90.9891372499545]
機械学習モデルの根本的な課題は、アウト・オブ・ディストリビューション(OOD)データへの一般化である。私たちはまず、DEC(Disentanglement-Constrained Domain Generalization)と呼ばれる制約付き最適化としてOOD一般化問題を定式化する。この変換に基づいて、結合表現の不絡合と領域一般化のための原始双対アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-11-27T07:36:32Z)
Theory-guided Auto-Encoder for Surrogate Construction and Inverse Modeling [0.0]
このフレームワークは畳み込みニューラルネットワーク(CNN)のAuto-Encoderアーキテクチャに基づいている。研究された問題の統治方程式は離散化することができ、方程式の有限差分スキームはCNNの訓練に組み込むことができる。トレーニングされたTgAEは、モデルパラメータとレスポンスの関係を限定ラベル付きデータで近似するサロゲートを構築するために使用することができる。
論文参考訳（メタデータ） (2020-11-17T13:23:03Z)
Generalization Properties of Optimal Transport GANs with Latent Distribution Learning [52.25145141639159]
本研究では,潜伏分布とプッシュフォワードマップの複雑さの相互作用が性能に与える影響について検討する。我々の分析に感銘を受けて、我々はGANパラダイム内での潜伏分布とプッシュフォワードマップの学習を提唱した。
論文参考訳（メタデータ） (2020-07-29T07:31:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。