論文の概要: Dynamic Prompt Learning via Policy Gradient for Semi-structured
Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2209.14610v1
- Date: Thu, 29 Sep 2022 08:01:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 15:43:25.697585
- Title: Dynamic Prompt Learning via Policy Gradient for Semi-structured
Mathematical Reasoning
- Title(参考訳): 半構造化数学的推論のためのポリシー勾配による動的プロンプト学習
- Authors: Pan Lu, Liang Qiu, Kai-Wei Chang, Ying Nian Wu, Song-Chun Zhu, Tanmay
Rajpurohit, Peter Clark, Ashwin Kalyan
- Abstract要約: 数学的な推論を必要とする38,431のグレードレベルの問題を含む新しいデータセットであるTabular Math Word Problems (TabMWP)を提案する。
我々は,GPT-3モデルを含む,TabMWP上での事前学習モデルの評価を行った。
本稿では、ポリシー勾配を利用して、少量のトレーニングデータからコンテキスト内サンプルを選択する新しいアプローチ、PromptPGを提案する。
- 参考スコア(独自算出の注目度): 150.17907456113537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mathematical reasoning, a core ability of human intelligence, presents unique
challenges for machines in abstract thinking and logical reasoning. Recent
large pre-trained language models such as GPT-3 have achieved remarkable
progress on mathematical reasoning tasks written in text form, such as math
word problems (MWP). However, it is unknown if the models can handle more
complex problems that involve math reasoning over heterogeneous information,
such as tabular data. To fill the gap, we present Tabular Math Word Problems
(TabMWP), a new dataset containing 38,431 open-domain grade-level problems that
require mathematical reasoning on both textual and tabular data. Each question
in TabMWP is aligned with a tabular context, which is presented as an image,
semi-structured text, and a structured table. There are two types of questions:
free-text and multi-choice, and each problem is annotated with gold solutions
to reveal the multi-step reasoning process. We evaluate different pre-trained
models on TabMWP, including the GPT-3 model in a few-shot setting. As earlier
studies suggest, since few-shot GPT-3 relies on the selection of in-context
examples, its performance is unstable and can degrade to near chance. The
unstable issue is more severe when handling complex problems like TabMWP. To
mitigate this, we further propose a novel approach, PromptPG, which utilizes
policy gradient to learn to select in-context examples from a small amount of
training data and then constructs the corresponding prompt for the test
example. Experimental results show that our method outperforms the best
baseline by 5.31% on the accuracy metric and reduces the prediction variance
significantly compared to random selection, which verifies its effectiveness in
the selection of in-context examples.
- Abstract(参考訳): ヒューマンインテリジェンスの中核的な能力である数学的推論は抽象的思考と論理的推論において機械に固有の課題を提示している。
GPT-3のような最近の大規模事前学習言語モデルは、数学語問題(MWP)のようなテキスト形式で書かれた数学的推論タスクにおいて顕著な進歩を遂げている。
しかし、このモデルが表型データのような異種情報に対する数学推論を含むより複雑な問題に対処できるかどうかは不明である。
このギャップを埋めるために、テキストデータと表データの両方で数学的推論を必要とする38,431のオープンドメイングレードレベルの問題を含む新しいデータセットTabular Math Word Problems (TabMWP)を提案する。
TabMWPの各質問は、画像、半構造化テキスト、構造化テーブルとして表される表のコンテキストで整列される。
free-text と multi-choice の2種類の質問があり、各問題は多段階推論プロセスを明らかにするために gold solutions でアノテートされる。
我々は,GPT-3モデルを含む,TabMWP上での事前学習モデルの評価を行った。
以前の研究で示唆されたように、GPT-3は文脈内サンプルの選択に頼っているため、その性能は不安定であり、ほぼ偶然に劣化する可能性がある。
TabMWPのような複雑な問題を扱う場合、不安定な問題はより深刻である。
これを軽減するために,ポリシー勾配を利用して少量のトレーニングデータからコンテキスト内サンプルを抽出し,テスト例に対応するプロンプトを構築する,新しいアプローチであるPromptPGを提案する。
実験の結果,本手法は最適ベースラインを5.31%精度で上回り,確率的選択に比べて予測ばらつきを有意に低減し,文脈内サンプルの選定において有効性を検証した。
関連論文リスト
- Parameterizing Context: Unleashing the Power of Parameter-Efficient
Fine-Tuning and In-Context Tuning for Continual Table Semantic Parsing [13.51721352349583]
本稿では,連続的なテーブルセマンティック解析のトレーニングに,PEFT(textitcontext- efficient fine-tuning)とICT(textitin-adaptive tuning)を統合した新しい手法を提案する。
教員は、ICTを用いて、いくつかのトレーニング例を示すことで、文脈情報を取得する、いくつかのショット問題に対処する。
代わりに、提案したPEFTフレームワークを利用して教師の出力分布から学習し、その後、文脈情報をプロンプトに圧縮保存し、トレーニング例を保存する必要がなくなる。
論文 参考訳(メタデータ) (2023-10-07T13:40:41Z) - Leveraging Training Data in Few-Shot Prompting for Numerical Reasoning [10.889271604723312]
思考の連鎖(CoT)は、多くの自然言語処理タスクで有効であることが証明されている。
本研究では, 動的プログラム・プロンプトとプログラム蒸留という, 数発のプロンプトシナリオにおいて, トレーニングデータを活用するための2つの手法について検討する。
3つの標準数学語問題(MWP)データセットに関する実験により,これらの手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-05-29T16:01:40Z) - Textual Enhanced Contrastive Learning for Solving Math Word Problems [23.196339273292246]
本稿では,意味的に類似した例を識別するためにモデルを強制するテキスト拡張コントラスト学習フレームワークを提案する。
テキストの微妙なばらつきのある例を豊かにするために、自己監督的な方法戦略を採用する。
実験結果から,提案手法は広く使用されているベンチマークデータセットと,英語と中国語の課題データセットの両面において,最先端性を実現していることが明らかとなった。
論文 参考訳(メタデータ) (2022-11-29T08:44:09Z) - ASDOT: Any-Shot Data-to-Text Generation with Pretrained Language Models [82.63962107729994]
Any-Shot Data-to-Text (ASDOT)は、多様な設定に柔軟に適用可能な新しいアプローチである。
データ曖昧化と文の融合という2つのステップから構成される。
実験の結果, ASDOT はベースラインよりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2022-10-09T19:17:43Z) - PTab: Using the Pre-trained Language Model for Modeling Tabular Data [5.791972449406902]
近年の研究では、ニューラルネットワークモデルがタブラルデータの文脈表現の学習に有効であることが示されている。
本稿では,事前学習言語モデルを用いて,タブラルデータをモデル化する新しいフレームワークPTabを提案する。
提案手法は,最先端のベースラインに比べて,教師付き設定における平均AUCスコアが向上した。
論文 参考訳(メタデータ) (2022-09-15T08:58:42Z) - Unbiased Math Word Problems Benchmark for Mitigating Solving Bias [72.8677805114825]
現在の問題解決者は、バイアス付きデータセットと不適切なトレーニング戦略によるデータバイアスと学習バイアスからなるバイアスを解決している。
実験により,MWP の解法は,すべての MWP の問題を多種多様な質問をカバーしないバイアス付きトレーニングデータセットにより容易にバイアスを受けられることを確認した。
MWPは複数の等価方程式によって自然に解けるが、現在のデータセットは1つの等価方程式のみを基底真理とする。
論文 参考訳(メタデータ) (2022-05-17T06:07:04Z) - Generate & Rank: A Multi-task Framework for Math Word Problems [48.99880318686938]
数学語問題(MWP)は自然言語処理において困難かつ重要な課題である。
生成事前学習型言語モデルに基づくフレームワークであるGenerate & Rankを提案する。
生成とランキングの併用トレーニングによって、モデルは自身のミスから学習し、正しい表現と間違った表現を区別することができる。
論文 参考訳(メタデータ) (2021-09-07T12:21:49Z) - MWP-BERT: A Strong Baseline for Math Word Problems [47.51572465676904]
数学語問題(英: Math word problem、MWP)とは、自然言語による問題記述の列を、実行可能な数学方程式に変換するタスクである。
近年, MWP の逐次モデル化は, 文脈理解の数学的側面から評価されているが, 事前学習言語モデル (PLM) はMWP の解法として研究されていない。
我々はMWP-BERTを導入し、テキスト記述と数理論理の整合性を捉える事前訓練されたトークン表現を得る。
論文 参考訳(メタデータ) (2021-07-28T15:28:41Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。