論文の概要: Program of Thoughts Prompting: Disentangling Computation from Reasoning
for Numerical Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2211.12588v4
- Date: Mon, 23 Oct 2023 01:27:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 14:14:04.294327
- Title: Program of Thoughts Prompting: Disentangling Computation from Reasoning
for Numerical Reasoning Tasks
- Title(参考訳): 思考の実証プログラム:数値推論タスクにおける推論から計算を遠ざける
- Authors: Wenhu Chen, Xueguang Ma, Xinyi Wang, William W. Cohen
- Abstract要約: CoT(Chain-of-thinkts prompting)は、これらのタスクに対する最先端の手法である。
本稿では、言語モデルを用いて推論過程をプログラムとして表現する「思考プログラム(PoT)」を提案する。
PoTは、評価されたすべてのデータセットに対して、CoTに対する平均的なパフォーマンス向上を約12%示すことができる。
- 参考スコア(独自算出の注目度): 108.4568236569645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been significant progress in teaching language models to
perform step-by-step reasoning to solve complex numerical reasoning tasks.
Chain-of-thoughts prompting (CoT) is by far the state-of-art method for these
tasks. CoT uses language models to perform both reasoning and computation in
the multi-step `thought' process. To disentangle computation from reasoning, we
propose `Program of Thoughts' (PoT), which uses language models (mainly Codex)
to express the reasoning process as a program. The computation is relegated to
an external computer, which executes the generated programs to derive the
answer. We evaluate PoT on five math word problem datasets (GSM, AQuA, SVAMP,
TabMWP, MultiArith) and three financial-QA datasets (FinQA, ConvFinQA, TATQA)
for both few-shot and zero-shot setups. Under both few-shot and zero-shot
settings, PoT can show an average performance gain over CoT by around 12\%
across all the evaluated datasets. By combining PoT with self-consistency
decoding, we can achieve SoTA performance on all math problem datasets and
near-SoTA performance on financial datasets. All of our data and code are
released in Github https://github.com/wenhuchen/Program-of-Thoughts
- Abstract(参考訳): 近年,複雑な数値推論タスクを解くために,ステップバイステップ推論を行う言語モデルが大幅に進歩している。
CoT(Chain-of-thinkts prompting)は、これらのタスクに対する最先端の手法である。
CoTは言語モデルを使用して、多段階の ‘Thought’ プロセスで推論と計算の両方を実行する。
推論から計算を遠ざけるために,言語モデル(主にコーデックス)を用いて推論過程をプログラムとして表現する'PoT'(Program of Thoughts)を提案する。
計算は外部コンピュータに委譲され、生成されたプログラムを実行して回答を導出する。
我々は,5つの算術語問題データセット(GSM,AQuA,SVAMP,TabMWP,MultiArith)と3つの財務QAデータセット(FinQA,ConvFinQA,TATQA)を用いて,小ショットとゼロショットの両方でPoTを評価する。
数ショットとゼロショットの両方の設定で、PoTは評価されたデータセット全体の平均12倍のパフォーマンス向上を示すことができる。
PoTと自己整合性デコーディングを組み合わせることで、すべての数学問題データセットでSoTA性能、財務データセットでほぼSoTA性能を達成することができる。
すべてのデータとコードはGithub https://github.com/wenhuchen/Program-of-Thoughtsで公開されています。
関連論文リスト
- Design of Chain-of-Thought in Math Problem Solving [8.582686316167973]
CoT (Chain-of-Thought) は数学の問題解決において重要な役割を担っている。
従来の自然言語CoTと,自己記述プログラム,コメント記述プログラム,非記述プログラムなど,さまざまなプログラムCoTを比較した。
プログラムCoTsは数学問題の解法において優れた効率性を持つことが多い。
論文 参考訳(メタデータ) (2023-09-20T04:17:28Z) - Evaluating and Improving Tool-Augmented Computation-Intensive Math
Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。
ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。
CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-06-04T17:02:59Z) - FERMAT: An Alternative to Accuracy for Numerical Reasoning [11.893004722079557]
数値推論は、既存のデータセットの単一スコアを用いて測定される。
我々は、FERMATと呼ばれる、英語の数値推論のための多視点評価セットを導入する。
FerMATは、数理解、数学的操作、訓練依存など、様々な重要な数値推論の側面でモデルを評価する。
論文 参考訳(メタデータ) (2023-05-27T15:00:45Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning
by Large Language Models [23.805926737723603]
大規模言語モデル(LLM)の推論ステップを生成するために、手作業でステップバイステップの推論デモを作成することができる。
Zero-shot-CoTs は LLM への入力プロンプトとして "Let's Think by Step" でターゲット問題文をプロンプトする。
提案したゼロショットのプロンプトが全データセットでゼロショットCoTをはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2023-05-06T16:34:37Z) - Toward a Unified Framework for Unsupervised Complex Tabular Reasoning [7.275757913661363]
本稿では,教師なし複雑な表型推論のための統一的なフレームワークを提案する。
ヒューマンアノテートされたデータを全く含まないと仮定して、タスクを推論するための複雑な論理を持つ十分かつ多様な合成データを生成する。
実験の結果,教師なし手法は教師なしモデルと比較して,少なくとも93%の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2022-12-20T09:15:03Z) - NAPG: Non-Autoregressive Program Generation for Hybrid Tabular-Textual
Question Answering [52.10214317661547]
現在の数値推論法はプログラムシーケンスを自己回帰的にデコードする。
プログラム生成の精度は、デコードステップがエラー伝搬によって展開されるにつれて急激に低下する。
本稿では,非自己回帰型プログラム生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-07T11:25:21Z) - ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational
Finance Question Answering [70.6359636116848]
本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。
我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。
論文 参考訳(メタデータ) (2022-10-07T23:48:50Z) - Dynamic Prompt Learning via Policy Gradient for Semi-structured
Mathematical Reasoning [150.17907456113537]
数学的な推論を必要とする38,431のグレードレベルの問題を含む新しいデータセットであるTabular Math Word Problems (TabMWP)を提案する。
我々は,GPT-3モデルを含む,TabMWP上での事前学習モデルの評価を行った。
本稿では、ポリシー勾配を利用して、少量のトレーニングデータからコンテキスト内サンプルを選択する新しいアプローチ、PromptPGを提案する。
論文 参考訳(メタデータ) (2022-09-29T08:01:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。