論文の概要: Adversarial Examples for Evaluating Math Word Problem Solvers
- arxiv url: http://arxiv.org/abs/2109.05925v1
- Date: Mon, 13 Sep 2021 12:47:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 23:33:18.736861
- Title: Adversarial Examples for Evaluating Math Word Problem Solvers
- Title(参考訳): 数学語問題解法の評価における逆例
- Authors: Vivek Kumar, Rishabh Maheshwary, Vikram Pudi
- Abstract要約: MWP(Math Word Problem)は、ベンチマークデータセット上で高い性能を達成している。
既存のMWPソルバが言語を真に理解している範囲と数との関係はいまだ不明である。
我々は、最先端のMWPソルバの堅牢性を評価するために、敵攻撃を生成する。
- 参考スコア(独自算出の注目度): 4.266990593059533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard accuracy metrics have shown that Math Word Problem (MWP) solvers
have achieved high performance on benchmark datasets. However, the extent to
which existing MWP solvers truly understand language and its relation with
numbers is still unclear. In this paper, we generate adversarial attacks to
evaluate the robustness of state-of-the-art MWP solvers. We propose two methods
Question Reordering and Sentence Paraphrasing to generate adversarial attacks.
We conduct experiments across three neural MWP solvers over two benchmark
datasets. On average, our attack method is able to reduce the accuracy of MWP
solvers by over 40 percentage points on these datasets. Our results demonstrate
that existing MWP solvers are sensitive to linguistic variations in the problem
text. We verify the validity and quality of generated adversarial examples
through human evaluation.
- Abstract(参考訳): 標準精度測定により、ベンチマークデータセット上でのMath Word Problem (MWP) の解法は高い性能を示した。
しかし、既存のMWPソルバが言語とその数との関係を真に理解している範囲はいまだ不明である。
本稿では,最新のMWPソルバの堅牢性を評価するために,逆攻撃を生成する。
本稿では,対立攻撃を発生させる2つの方法を提案する。
2つのベンチマークデータセット上で3つのニューラルMWPソルバを対象に実験を行った。
本手法では,これらのデータセットに対して平均40ポイント以上の精度でMWPソルバの精度を下げることができる。
その結果,既存のMWPソルバは問題テキストの言語的変化に敏感であることがわかった。
我々は,人的評価によって生成した敵例の有効性と品質を検証する。
関連論文リスト
- Robustness Assessment of Mathematical Reasoning in the Presence of Missing and Contradictory Conditions [48.251724997889184]
我々は、ミス・コントラクタリー条件(PMC)に関する問題というベンチマークを開発する。
本稿では,これらのシナリオにおける数ショットプロンプト手法の性能を評価するための2つの新しい指標を提案する。
SMT-LIB Prompting (SLP) と呼ばれる,SMT-LIB言語を用いて直接解決する代わりに,この問題をモデル化する手法を提案する。
論文 参考訳(メタデータ) (2024-06-07T16:24:12Z) - Cutting Through the Noise: Boosting LLM Performance on Math Word Problems [52.99006895757801]
大規模言語モデルは数学用語の問題を解くのに優れるが、無関係な情報を含む現実世界の問題に苦戦する。
本稿では,無関係な変数を追加することで,MWPの逆変分を生成するプロンプトフレームワークを提案する。
敵の訓練インスタンスの微調整は、敵のMWPのパフォーマンスを8%向上させる。
論文 参考訳(メタデータ) (2024-05-30T18:07:13Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - MWPRanker: An Expression Similarity Based Math Word Problem Retriever [12.638925774492403]
オンラインアセスメントにおける数学語問題(MWP)は、学習者が重要な推論を行う能力をテストするのに役立つ。
本稿では,MWP検索のためのツールを提案する。
論文 参考訳(メタデータ) (2023-07-03T15:44:18Z) - Unbiased Math Word Problems Benchmark for Mitigating Solving Bias [72.8677805114825]
現在の問題解決者は、バイアス付きデータセットと不適切なトレーニング戦略によるデータバイアスと学習バイアスからなるバイアスを解決している。
実験により,MWP の解法は,すべての MWP の問題を多種多様な質問をカバーしないバイアス付きトレーニングデータセットにより容易にバイアスを受けられることを確認した。
MWPは複数の等価方程式によって自然に解けるが、現在のデータセットは1つの等価方程式のみを基底真理とする。
論文 参考訳(メタデータ) (2022-05-17T06:07:04Z) - Math Word Problem Generation with Mathematical Consistency and Problem
Context Constraints [37.493809561634386]
算数方程式を与えられた算術演算語問題(MWP)を生成する問題について検討する。
既存のアプローチは、数学的に無効あるいは不満足な言語品質を持つMWPを生成する傾向がある。
論文 参考訳(メタデータ) (2021-09-09T20:24:25Z) - Generate & Rank: A Multi-task Framework for Math Word Problems [48.99880318686938]
数学語問題(MWP)は自然言語処理において困難かつ重要な課題である。
生成事前学習型言語モデルに基づくフレームワークであるGenerate & Rankを提案する。
生成とランキングの併用トレーニングによって、モデルは自身のミスから学習し、正しい表現と間違った表現を区別することができる。
論文 参考訳(メタデータ) (2021-09-07T12:21:49Z) - MWP-BERT: A Strong Baseline for Math Word Problems [47.51572465676904]
数学語問題(英: Math word problem、MWP)とは、自然言語による問題記述の列を、実行可能な数学方程式に変換するタスクである。
近年, MWP の逐次モデル化は, 文脈理解の数学的側面から評価されているが, 事前学習言語モデル (PLM) はMWP の解法として研究されていない。
我々はMWP-BERTを導入し、テキスト記述と数理論理の整合性を捉える事前訓練されたトークン表現を得る。
論文 参考訳(メタデータ) (2021-07-28T15:28:41Z) - Are NLP Models really able to Solve Simple Math Word Problems? [7.433931244705934]
MWP で質問された質問にアクセスできない MWP の解法は依然として MWP の大部分を解けることを示す。
既存のデータセットから抽出したサンプルに対して、慎重に選択されたバリエーションを適用して作成するチャレンジデータセットSVAMPを導入する。
最先端モデルによって達成される最高の精度はSVAMPよりも大幅に低いため、MWPの最も単純なモデルでも多くの処理が可能であることが示される。
論文 参考訳(メタデータ) (2021-03-12T10:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。