論文の概要: Practice Makes a Solver Perfect: Data Augmentation for Math Word Problem
Solvers
- arxiv url: http://arxiv.org/abs/2205.00177v1
- Date: Sat, 30 Apr 2022 06:23:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 07:16:25.074167
- Title: Practice Makes a Solver Perfect: Data Augmentation for Math Word Problem
Solvers
- Title(参考訳): 実践によって解法が完璧になる: 数学の単語問題を解くためのデータ拡張
- Authors: Vivek Kumar, Rishabh Maheshwary, Vikram Pudi
- Abstract要約: 既存の数学語問題(MWP)は、ベンチマークデータセットで高い精度を達成している。
以前の研究では、そのような解法は一般化が良くなく、高い性能を達成するために表面的な方法に依存していることが示されている。
既存のデータセットのサイズを5倍に増やすために,いくつかのデータ拡張手法を提案する。
- 参考スコア(独自算出の注目度): 11.64291139163626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing Math Word Problem (MWP) solvers have achieved high accuracy on
benchmark datasets. However, prior works have shown that such solvers do not
generalize well and rely on superficial cues to achieve high performance. In
this paper, we first conduct experiments to showcase that this behaviour is
mainly associated with the limited size and diversity present in existing MWP
datasets. Next, we propose several data augmentation techniques broadly
categorized into Substitution and Paraphrasing based methods. By deploying
these methods we increase the size of existing datasets by five folds.
Extensive experiments on two benchmark datasets across three state-of-the-art
MWP solvers show that proposed methods increase the generalization and
robustness of existing solvers. On average, proposed methods significantly
increase the state-of-the-art results by over five percentage points on
benchmark datasets. Further, the solvers trained on the augmented dataset
perform comparatively better on the challenge test set. We also show the
effectiveness of proposed techniques through ablation studies and verify the
quality of augmented samples through human evaluation.
- Abstract(参考訳): 既存の数学語問題(MWP)は、ベンチマークデータセットで高い精度を達成している。
しかし、先行研究はそのような解法がうまく一般化せず、高パフォーマンスを達成するために表面的手がかりに頼っていることを示してきた。
本稿では,この動作が,既存のMWPデータセットに存在する限られたサイズと多様性に主に関連していることを示す実験を行う。
次に,置換法とパラフレージング法に大別されるデータ拡張手法を提案する。
これらのメソッドをデプロイすることで、既存のデータセットのサイズを5倍に増やします。
3つの最先端mwpソルバにおける2つのベンチマークデータセットの広範な実験は、提案手法が既存のソルバの一般化と堅牢性を高めることを示している。
提案手法は平均して,ベンチマークデータセットにおいて,最先端の結果を5ポイント以上向上させる。
さらに、拡張データセットでトレーニングされたソルバは、チャレンジテストセットにおいて比較良く動作する。
また,提案手法のアブレーション実験による有効性を示し,人体評価による拡張試料の品質検証を行った。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Improving General Text Embedding Model: Tackling Task Conflict and Data Imbalance through Model Merging [33.23758947497205]
高度な埋め込みモデルは、通常、大規模マルチタスクデータと複数のタスクをまたいだ共同トレーニングを用いて開発される。
これらの課題を克服するために、独立に訓練されたモデルを組み合わせて勾配の衝突を緩和し、データ分散のバランスをとるモデルマージングについて検討する。
本稿では,勾配降下を用いたタスクベクトル空間内の最適モデル組合せを効率的に探索する新たな手法であるSelf Positioningを提案する。
論文 参考訳(メタデータ) (2024-10-19T08:39:21Z) - A Comprehensive Survey on Data Augmentation [55.355273602421384]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。
既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。
本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
論文 参考訳(メタデータ) (2024-05-15T11:58:08Z) - Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary
Data [100.33096338195723]
補助データを用いたFew-shot Learning(FLAD)に焦点を当てる。
FLADは、一般化を改善するために、数ショットの学習中に補助データへのアクセスを前提としている。
提案するアルゴリズムは EXP3-FLAD と UCB1-FLAD の2つである。
論文 参考訳(メタデータ) (2023-02-01T18:59:36Z) - Advanced Data Augmentation Approaches: A Comprehensive Survey and Future
directions [57.30984060215482]
データ拡張の背景、レビューされたデータ拡張技術の新しい包括的分類法、および各技術の強さと弱点(可能ならば)を提供する。
また、画像分類、オブジェクト検出、セマンティックセグメンテーションなどの3つの一般的なコンピュータビジョンタスクに対して、データ拡張効果の総合的な結果を提供する。
論文 参考訳(メタデータ) (2023-01-07T11:37:32Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Data Augmentation Approaches in Natural Language Processing: A Survey [28.91744006146676]
データ拡張(DA)は、ディープラーニング技術が失敗する可能性のあるデータの不足シナリオを軽減する。
DA手法の主な焦点の1つは、トレーニングデータの多様性を改善することである。
DA手法をパラフレーズ化, ノイズ化, サンプリングなど, 拡張データの多様性に基づいて3つのカテゴリに分類する。
論文 参考訳(メタデータ) (2021-10-05T07:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。