論文の概要: Seeking Patterns, Not just Memorizing Procedures: Contrastive Learning
for Solving Math Word Problems
- arxiv url: http://arxiv.org/abs/2110.08464v1
- Date: Sat, 16 Oct 2021 04:03:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-21 18:25:52.035909
- Title: Seeking Patterns, Not just Memorizing Procedures: Contrastive Learning
for Solving Math Word Problems
- Title(参考訳): 手続きを記憶するだけでなく、パターンを探す: 数学の単語問題を解くためのコントラスト学習
- Authors: Zhongli Li, Wenxuan Zhang, Chao Yan, Qingyu Zhou, Chao Li, Hongzhi
Liu, Yunbo Cao
- Abstract要約: ニューラルネットワークが意味論からのみパターンを理解する方法について検討する。
本稿では,ニューラルネットワークがパターンの発散を知覚する,対照的な学習手法を提案する。
本手法は単言語および多言語設定における性能を大幅に改善する。
- 参考スコア(独自算出の注目度): 14.144577791030853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Math Word Problem (MWP) solving needs to discover the quantitative
relationships over natural language narratives. Recent work shows that existing
models memorize procedures from context and rely on shallow heuristics to solve
MWPs. In this paper, we look at this issue and argue that the cause is a lack
of overall understanding of MWP patterns. We first investigate how a neural
network understands patterns only from semantics, and observe that, if the
prototype equations are the same, most problems get closer representations and
those representations apart from them or close to other prototypes tend to
produce wrong solutions. Inspired by it, we propose a contrastive learning
approach, where the neural network perceives the divergence of patterns. We
collect contrastive examples by converting the prototype equation into a tree
and seeking similar tree structures. The solving model is trained with an
auxiliary objective on the collected examples, resulting in the representations
of problems with similar prototypes being pulled closer. We conduct experiments
on the Chinese dataset Math23k and the English dataset MathQA. Our method
greatly improves the performance in monolingual and multilingual settings.
- Abstract(参考訳): 数学語問題(MWP)の解法は、自然言語の物語における量的関係を発見する必要がある。
最近の研究は、既存のモデルが文脈から手順を記憶し、MWPを解くための浅いヒューリスティックに依存していることを示している。
本稿では,この問題を考察し,MWPパターンの全体的理解の欠如が原因であると主張している。
まず,ニューラルネットワークが意味論からのみパターンを理解する方法を検証し,プロトタイプ方程式が同一であれば,ほとんどの問題はより近い表現となり,それら以外の表現や他のプロトタイプに近い表現は間違った解を生み出す傾向があることを観察する。
そこで我々は,ニューラルネットワークがパターンの発散を知覚する,対照的な学習手法を提案する。
プロトタイプ式を木に変換し,類似した木構造を求めることで,対照的な例を収集する。
解法モデルは、収集したサンプルに対して補助目的を持って訓練され、類似のプロトタイプを近づけて問題を表現する。
我々は中国語のデータセットMath23kと英語のデータセットMathQAで実験を行った。
本手法は単言語および多言語設定における性能を大幅に改善する。
関連論文リスト
- Do Language Models Exhibit the Same Cognitive Biases in Problem Solving as Human Learners? [140.9751389452011]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。
我々は,これらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリックアプローチを用いて,新しい単語問題を生成する。
論文 参考訳(メタデータ) (2024-01-31T18:48:20Z) - Solving Math Word Problems with Reexamination [27.80592576792461]
モデルに依存しない擬似双対学習手法を提案する。
擬似双対タスクは、表現中の数字を元の単語問題に記入し、数字をマスクするものとして特に定義される。
提案手法は,複数の代表MWPソルバを実証実験により適用した場合に有効であることが確認された。
論文 参考訳(メタデータ) (2023-10-14T14:23:44Z) - Large Language Models as Analogical Reasoners [155.9617224350088]
CoT(Chain-of- Thought)は、言語モデルのプロンプトとして、推論タスク全体で素晴らしいパフォーマンスを示す。
そこで本稿では,大規模言語モデルの推論プロセスを自動的にガイドする,新たなプロンプト手法であるアナログプロンプトを導入する。
論文 参考訳(メタデータ) (2023-10-03T00:57:26Z) - MWPRanker: An Expression Similarity Based Math Word Problem Retriever [12.638925774492403]
オンラインアセスメントにおける数学語問題(MWP)は、学習者が重要な推論を行う能力をテストするのに役立つ。
本稿では,MWP検索のためのツールを提案する。
論文 参考訳(メタデータ) (2023-07-03T15:44:18Z) - Math Word Problem Solving by Generating Linguistic Variants of Problem
Statements [1.742186232261139]
本稿では,問題テキストの言語的変種生成に基づくMWP問題解決のためのフレームワークを提案する。
このアプローチでは、各変種問題を解決し、予測された表現を過半数の票で選択する。
本稿では,問題文の言語的変種に関するトレーニングと候補予測による投票により,モデルの数学的推論やロバスト性が改善されることを示す。
論文 参考訳(メタデータ) (2023-06-24T08:27:39Z) - Textual Enhanced Contrastive Learning for Solving Math Word Problems [23.196339273292246]
本稿では,意味的に類似した例を識別するためにモデルを強制するテキスト拡張コントラスト学習フレームワークを提案する。
テキストの微妙なばらつきのある例を豊かにするために、自己監督的な方法戦略を採用する。
実験結果から,提案手法は広く使用されているベンチマークデータセットと,英語と中国語の課題データセットの両面において,最先端性を実現していることが明らかとなった。
論文 参考訳(メタデータ) (2022-11-29T08:44:09Z) - A Causal Framework to Quantify the Robustness of Mathematical Reasoning
with Language Models [81.15974174627785]
入力空間における直接的介入に対する頑健さと感度の観点から言語モデルの振舞いについて検討する。
しかし, GPT-3 Davinciモデル(175B)は, 他のGPTモデルと比較して, 頑健さと感度の両面で劇的な改善を実現している。
論文 参考訳(メタデータ) (2022-10-21T15:12:37Z) - Text and Patterns: For Effective Chain of Thought, It Takes Two to Tango [11.344587937052697]
この研究は、大規模言語モデルにおける推論機構のより深い理解に向けた予備的なステップを開始する。
私たちの作業は、シンボル、パターン、テキストというプロンプト内のコンポーネントの1つを除いて、モデルをクエリすることに集中しています。
我々は、テキストがパターンに常識的な知識と意味を与えると仮定する。
論文 参考訳(メタデータ) (2022-09-16T02:54:00Z) - Unnatural Language Inference [48.45003475966808]
我々は、RoBERTaやBARTのような最先端のNLIモデルは、ランダムに並べ替えられた単語の例に不変であり、時にはよりよく機能することさえあります。
我々の発見は、自然言語理解モデルと、その進捗を測定するために使われるタスクが、本当に人間のような構文理解を必要とするという考えに疑問を投げかけている。
論文 参考訳(メタデータ) (2020-12-30T20:40:48Z) - Machine Number Sense: A Dataset of Visual Arithmetic Problems for
Abstract and Relational Reasoning [95.18337034090648]
文法モデルを用いて自動生成される視覚的算術問題からなるデータセット、MNS(Machine Number Sense)を提案する。
これらの視覚的算術問題は幾何学的フィギュアの形をしている。
我々は、この視覚的推論タスクのベースラインとして、4つの主要なニューラルネットワークモデルを用いて、MNSデータセットをベンチマークする。
論文 参考訳(メタデータ) (2020-04-25T17:14:58Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。