論文の概要: Data Augmentation for Mathematical Objects
- arxiv url: http://arxiv.org/abs/2307.06984v1
- Date: Thu, 13 Jul 2023 16:02:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 15:49:50.568953
- Title: Data Augmentation for Mathematical Objects
- Title(参考訳): 数学的対象のためのデータ拡張
- Authors: Tereso del Rio and Matthew England
- Abstract要約: 非線形問題のデータセットと, 筒状分解のための変数順序付けを選択する問題を考える。
すでにラベル付けされた問題に変数名を入れ替えることで、さらにラベル付けを必要としない新しい問題インスタンスを生成します。
その結果,MLの精度は平均63%向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper discusses and evaluates ideas of data balancing and data
augmentation in the context of mathematical objects: an important topic for
both the symbolic computation and satisfiability checking communities, when
they are making use of machine learning techniques to optimise their tools. We
consider a dataset of non-linear polynomial problems and the problem of
selecting a variable ordering for cylindrical algebraic decomposition to tackle
these with. By swapping the variable names in already labelled problems, we
generate new problem instances that do not require any further labelling when
viewing the selection as a classification problem. We find this augmentation
increases the accuracy of ML models by 63% on average. We study what part of
this improvement is due to the balancing of the dataset and what is achieved
thanks to further increasing the size of the dataset, concluding that both have
a very significant effect. We finish the paper by reflecting on how this idea
could be applied in other uses of machine learning in mathematics.
- Abstract(参考訳): 本稿では,数学的対象の文脈におけるデータバランシングとデータ拡張の考え方を論じ,評価する: ツールの最適化に機械学習技術を利用する場合,シンボリック計算と満足度チェックコミュニティの両方にとって重要なトピックである。
本研究では,非線形多項式問題のデータセットと,円柱代数分解の変数順序選択問題について考察する。
すでにラベル付けされた問題に変数名を入れ替えることで、選択を分類問題と見なす際に、それ以上のラベル付けを必要としない新しい問題インスタンスを生成する。
この拡張により,MLモデルの精度は平均63%向上する。
この改善のどの部分はデータセットのバランスが取れていることと、データセットのサイズがさらに大きくなることによって達成されるものなのかを調査する。
我々は、このアイデアが数学における他の機械学習の用途にどのように適用できるかを振り返って、論文を締めくくった。
関連論文リスト
- ControlMath: Controllable Data Generation Promotes Math Generalist Models [38.0858432336873]
方程式生成モジュールと2つの LLM ベースのエージェントを含む反復的手法である ControlMath を提案する。
モジュールは多種多様な方程式を生成し、それを問題職人のエージェントが算術語問題に変換する。
ControlMathQAは190kの数学語問題を含む。
論文 参考訳(メタデータ) (2024-09-20T03:58:26Z) - Boarding for ISS: Imbalanced Self-Supervised: Discovery of a Scaled Autoencoder for Mixed Tabular Datasets [1.2289361708127877]
不均衡な自己教師付き学習の分野は、広く研究されていない。
既存の研究は主に画像データセットに焦点を当てている。
バランス学習のための新しい指標として,マルチスーパーバイザードバランスMSEを提案する。
論文 参考訳(メタデータ) (2024-03-23T10:37:22Z) - Lessons on Datasets and Paradigms in Machine Learning for Symbolic Computation: A Case Study on CAD [0.0]
本研究では,機械学習に先立ってデータセットを分析することの重要性について報告する。
本稿では, 筒状代数分解に対する変数順序付けの選択について, 特定のケーススタディに対する結果を示す。
我々は、データセットのバランスとさらなる拡張を可能にするシステムのための拡張技術を導入する。
論文 参考訳(メタデータ) (2024-01-24T10:12:43Z) - MuggleMath: Assessing the Impact of Query and Response Augmentation on Math Reasoning [54.2093509928664]
大規模言語モデルを用いた数学推論では、クエリの進化と多様な推論経路による微調整データ拡張が実験的に有効である。
本研究では,数理推論におけるそのようなデータ拡張に関する調査を行い,これらの疑問に答えることを意図している。
コードと拡張データはhttps://github.com/OFA-Sys/8k-Scel.comで公開しています。
論文 参考訳(メタデータ) (2023-10-09T08:18:58Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - CADDA: Class-wise Automatic Differentiable Data Augmentation for EEG
Signals [92.60744099084157]
本研究では、勾配に基づく学習に適した微分可能データ拡張を提案する。
本研究は,臨床関連睡眠ステージ分類課題におけるアプローチの意義を示す。
論文 参考訳(メタデータ) (2021-06-25T15:28:48Z) - Measuring Mathematical Problem Solving With the MATH Dataset [55.4376028963537]
12,500の競合数学問題のデータセットであるMATHを紹介する。
各問題には、答えの導出と説明を生成するためのモデルを教えるために使用できる完全なステップバイステップソリューションがあります。
また、モデルに数学の基礎を教えるための補助的事前学習データセットも提供します。
論文 参考訳(メタデータ) (2021-03-05T18:59:39Z) - Data augmentation and feature selection for automatic model
recommendation in computational physics [0.0]
本稿では,トレーニングデータの欠如,高次元化,物理データへの共通データ拡張手法の適用性に関する2つのアルゴリズムを紹介する。
6つの多層パーセプトロンとリッジロジスティック回帰からなる積み重ねアンサンブルを組み合わせると、非線形構造力学の分類問題において90%の精度が得られる。
論文 参考訳(メタデータ) (2021-01-12T15:09:11Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。