Fugu-MT 論文翻訳(概要): Data Augmentation for Mathematical Objects

論文の概要: Data Augmentation for Mathematical Objects

arxiv url: http://arxiv.org/abs/2307.06984v1
Date: Thu, 13 Jul 2023 16:02:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-17 15:49:50.568953
Title: Data Augmentation for Mathematical Objects
Title（参考訳）: 数学的対象のためのデータ拡張
Authors: Tereso del Rio and Matthew England
Abstract要約: 非線形問題のデータセットと, 筒状分解のための変数順序付けを選択する問題を考える。すでにラベル付けされた問題に変数名を入れ替えることで、さらにラベル付けを必要としない新しい問題インスタンスを生成します。その結果,MLの精度は平均63%向上した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper discusses and evaluates ideas of data balancing and data augmentation in the context of mathematical objects: an important topic for both the symbolic computation and satisfiability checking communities, when they are making use of machine learning techniques to optimise their tools. We consider a dataset of non-linear polynomial problems and the problem of selecting a variable ordering for cylindrical algebraic decomposition to tackle these with. By swapping the variable names in already labelled problems, we generate new problem instances that do not require any further labelling when viewing the selection as a classification problem. We find this augmentation increases the accuracy of ML models by 63% on average. We study what part of this improvement is due to the balancing of the dataset and what is achieved thanks to further increasing the size of the dataset, concluding that both have a very significant effect. We finish the paper by reflecting on how this idea could be applied in other uses of machine learning in mathematics.
Abstract（参考訳）: 本稿では,数学的対象の文脈におけるデータバランシングとデータ拡張の考え方を論じ,評価する: ツールの最適化に機械学習技術を利用する場合,シンボリック計算と満足度チェックコミュニティの両方にとって重要なトピックである。本研究では,非線形多項式問題のデータセットと,円柱代数分解の変数順序選択問題について考察する。すでにラベル付けされた問題に変数名を入れ替えることで、選択を分類問題と見なす際に、それ以上のラベル付けを必要としない新しい問題インスタンスを生成する。この拡張により,MLモデルの精度は平均63%向上する。この改善のどの部分はデータセットのバランスが取れていることと、データセットのサイズがさらに大きくなることによって達成されるものなのかを調査する。我々は、このアイデアが数学における他の機械学習の用途にどのように適用できるかを振り返って、論文を締めくくった。

関連論文リスト

Breaking the Data Barrier in Learning Symbolic Computation: A Case Study on Variable Ordering Suggestion for Cylindrical Algebraic Decomposition [0.0]
記号計算は、正確な深層計算による数学的推論において重要な応用である。既存の学習ベースのアプローチは、最高の専門家ベースの方法と競合するだけです。我々は、大量の注釈付きデータを簡単に取得できる一連の密結合タスクを設計する。一般公開されたCAD注文データセットの実験では、新しいモデルによって予測される順序は、提案されるものよりもはるかに良いことが示されている。
論文参考訳（メタデータ） (2026-01-20T08:40:35Z)
Leveraging Low-rank Factorizations of Conditional Correlation Matrices in Graph Learning [46.49143964254245]
本稿では,各ノードに収集されたデータから非方向グラフを学習する問題に対処する。対応するグラフ学習問題は、変数の数(ノード)の平方にスケールする。条件相関行列の低ランク分解を利用したグラフ学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-12T12:13:11Z)
RV-Syn: Rational and Verifiable Mathematical Reasoning Data Synthesis based on Structured Function Library [58.404895570822184]
RV-Synは、新しい数学的合成手法である。このライブラリからPython形式の関数を組み合わせることで、グラフをソリューションとして生成する。構築したグラフに基づいて,解誘導論理認識問題生成を実現する。
論文参考訳（メタデータ） (2025-04-29T04:42:02Z)
ControlMath: Controllable Data Generation Promotes Math Generalist Models [38.0858432336873]
方程式生成モジュールと2つの LLM ベースのエージェントを含む反復的手法である ControlMath を提案する。モジュールは多種多様な方程式を生成し、それを問題職人のエージェントが算術語問題に変換する。 ControlMathQAは190kの数学語問題を含む。
論文参考訳（メタデータ） (2024-09-20T03:58:26Z)
Boarding for ISS: Imbalanced Self-Supervised: Discovery of a Scaled Autoencoder for Mixed Tabular Datasets [1.2289361708127877]
不均衡な自己教師付き学習の分野は、広く研究されていない。既存の研究は主に画像データセットに焦点を当てている。バランス学習のための新しい指標として,マルチスーパーバイザードバランスMSEを提案する。
論文参考訳（メタデータ） (2024-03-23T10:37:22Z)
Lessons on Datasets and Paradigms in Machine Learning for Symbolic Computation: A Case Study on CAD [0.0]
本研究では,機械学習に先立ってデータセットを分析することの重要性について報告する。本稿では, 筒状代数分解に対する変数順序付けの選択について, 特定のケーススタディに対する結果を示す。我々は、データセットのバランスとさらなる拡張を可能にするシステムのための拡張技術を導入する。
論文参考訳（メタデータ） (2024-01-24T10:12:43Z)
MuggleMath: Assessing the Impact of Query and Response Augmentation on Math Reasoning [54.2093509928664]
大規模言語モデルを用いた数学推論では、クエリの進化と多様な推論経路による微調整データ拡張が実験的に有効である。本研究では,数理推論におけるそのようなデータ拡張に関する調査を行い,これらの疑問に答えることを意図している。コードと拡張データはhttps://github.com/OFA-Sys/8k-Scel.comで公開しています。
論文参考訳（メタデータ） (2023-10-09T08:18:58Z)
Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文参考訳（メタデータ） (2022-09-29T18:11:01Z)
Improving Classifier Training Efficiency for Automatic Cyberbullying Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文参考訳（メタデータ） (2021-11-02T15:48:28Z)
CADDA: Class-wise Automatic Differentiable Data Augmentation for EEG Signals [92.60744099084157]
本研究では、勾配に基づく学習に適した微分可能データ拡張を提案する。本研究は,臨床関連睡眠ステージ分類課題におけるアプローチの意義を示す。
論文参考訳（メタデータ） (2021-06-25T15:28:48Z)
Measuring Mathematical Problem Solving With the MATH Dataset [55.4376028963537]
12,500の競合数学問題のデータセットであるMATHを紹介する。各問題には、答えの導出と説明を生成するためのモデルを教えるために使用できる完全なステップバイステップソリューションがあります。また、モデルに数学の基礎を教えるための補助的事前学習データセットも提供します。
論文参考訳（メタデータ） (2021-03-05T18:59:39Z)
Data augmentation and feature selection for automatic model recommendation in computational physics [0.0]
本稿では,トレーニングデータの欠如,高次元化,物理データへの共通データ拡張手法の適用性に関する2つのアルゴリズムを紹介する。 6つの多層パーセプトロンとリッジロジスティック回帰からなる積み重ねアンサンブルを組み合わせると、非線形構造力学の分類問題において90%の精度が得られる。
論文参考訳（メタデータ） (2021-01-12T15:09:11Z)
Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文参考訳（メタデータ） (2020-10-10T14:04:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。