論文の概要: Program of Thoughts Prompting: Disentangling Computation from Reasoning
for Numerical Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2211.12588v4
- Date: Mon, 23 Oct 2023 01:27:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 14:14:04.294327
- Title: Program of Thoughts Prompting: Disentangling Computation from Reasoning
for Numerical Reasoning Tasks
- Title(参考訳): 思考の実証プログラム:数値推論タスクにおける推論から計算を遠ざける
- Authors: Wenhu Chen, Xueguang Ma, Xinyi Wang, William W. Cohen
- Abstract要約: CoT(Chain-of-thinkts prompting)は、これらのタスクに対する最先端の手法である。
本稿では、言語モデルを用いて推論過程をプログラムとして表現する「思考プログラム(PoT)」を提案する。
PoTは、評価されたすべてのデータセットに対して、CoTに対する平均的なパフォーマンス向上を約12%示すことができる。
- 参考スコア(独自算出の注目度): 108.4568236569645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been significant progress in teaching language models to
perform step-by-step reasoning to solve complex numerical reasoning tasks.
Chain-of-thoughts prompting (CoT) is by far the state-of-art method for these
tasks. CoT uses language models to perform both reasoning and computation in
the multi-step `thought' process. To disentangle computation from reasoning, we
propose `Program of Thoughts' (PoT), which uses language models (mainly Codex)
to express the reasoning process as a program. The computation is relegated to
an external computer, which executes the generated programs to derive the
answer. We evaluate PoT on five math word problem datasets (GSM, AQuA, SVAMP,
TabMWP, MultiArith) and three financial-QA datasets (FinQA, ConvFinQA, TATQA)
for both few-shot and zero-shot setups. Under both few-shot and zero-shot
settings, PoT can show an average performance gain over CoT by around 12\%
across all the evaluated datasets. By combining PoT with self-consistency
decoding, we can achieve SoTA performance on all math problem datasets and
near-SoTA performance on financial datasets. All of our data and code are
released in Github https://github.com/wenhuchen/Program-of-Thoughts
- Abstract(参考訳): 近年,複雑な数値推論タスクを解くために,ステップバイステップ推論を行う言語モデルが大幅に進歩している。
CoT(Chain-of-thinkts prompting)は、これらのタスクに対する最先端の手法である。
CoTは言語モデルを使用して、多段階の ‘Thought’ プロセスで推論と計算の両方を実行する。
推論から計算を遠ざけるために,言語モデル(主にコーデックス)を用いて推論過程をプログラムとして表現する'PoT'(Program of Thoughts)を提案する。
計算は外部コンピュータに委譲され、生成されたプログラムを実行して回答を導出する。
我々は,5つの算術語問題データセット(GSM,AQuA,SVAMP,TabMWP,MultiArith)と3つの財務QAデータセット(FinQA,ConvFinQA,TATQA)を用いて,小ショットとゼロショットの両方でPoTを評価する。
数ショットとゼロショットの両方の設定で、PoTは評価されたデータセット全体の平均12倍のパフォーマンス向上を示すことができる。
PoTと自己整合性デコーディングを組み合わせることで、すべての数学問題データセットでSoTA性能、財務データセットでほぼSoTA性能を達成することができる。
すべてのデータとコードはGithub https://github.com/wenhuchen/Program-of-Thoughtsで公開されています。
関連論文リスト
- ReasonAgain: Using Extractable Symbolic Programs to Evaluate Mathematical Reasoning [54.70811660561151]
既存の数学データセットは、最終回答または静的例から派生した中間推論ステップを用いて、大規模言語モデル(LLM)の推論能力を評価する。
モデルがプログラムへの様々な入力に対して常に正しい最終回答を生成できる場合、シンボルプログラムを自動評価の手段として利用したいと考えている。
提案手法は, 従来の静的な例と比較して, 精度の低下を観測し, 現状のLLMにおける数学推論の脆弱さを示唆する。
論文 参考訳(メタデータ) (2024-10-24T18:02:37Z) - To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning [55.52872152909785]
Chain-of-Thought (CoT) は,大規模言語モデル (LLM) から推論能力を引き出すデファクト手法である。
私たちは、CoTが主に数学や論理学を含むタスクに強いパフォーマンス上の利点をもたらし、他のタスクよりもはるかに少ない利益をもたらすことを示しています。
論文 参考訳(メタデータ) (2024-09-18T17:55:00Z) - How Do Humans Write Code? Large Models Do It the Same Way Too [14.954886191356342]
Program-of-Thought(PoT)は、自然言語ベースのChain-of-Thought(CoT)を、大規模言語モデルにおいて最も一般的な方法として置き換える。
PoTを使用すると、CoTと比較して、不正な公式や欠陥論理などの推論エラーがより多く導入される。
本稿では,PoTとCoTの統合を支援する一連の戦略を活用するHTL(Human-Think Language)を提案する。
論文 参考訳(メタデータ) (2024-02-24T05:40:01Z) - Design of Chain-of-Thought in Math Problem Solving [8.582686316167973]
CoT (Chain-of-Thought) は数学の問題解決において重要な役割を担っている。
従来の自然言語CoTと,自己記述プログラム,コメント記述プログラム,非記述プログラムなど,さまざまなプログラムCoTを比較した。
プログラムCoTsは数学問題の解法において優れた効率性を持つことが多い。
論文 参考訳(メタデータ) (2023-09-20T04:17:28Z) - Evaluating and Improving Tool-Augmented Computation-Intensive Math
Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。
ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。
CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-06-04T17:02:59Z) - Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning
by Large Language Models [23.805926737723603]
大規模言語モデル(LLM)の推論ステップを生成するために、手作業でステップバイステップの推論デモを作成することができる。
Zero-shot-CoTs は LLM への入力プロンプトとして "Let's Think by Step" でターゲット問題文をプロンプトする。
提案したゼロショットのプロンプトが全データセットでゼロショットCoTをはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2023-05-06T16:34:37Z) - ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational
Finance Question Answering [70.6359636116848]
本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。
我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。
論文 参考訳(メタデータ) (2022-10-07T23:48:50Z) - Dynamic Prompt Learning via Policy Gradient for Semi-structured
Mathematical Reasoning [150.17907456113537]
数学的な推論を必要とする38,431のグレードレベルの問題を含む新しいデータセットであるTabular Math Word Problems (TabMWP)を提案する。
我々は,GPT-3モデルを含む,TabMWP上での事前学習モデルの評価を行った。
本稿では、ポリシー勾配を利用して、少量のトレーニングデータからコンテキスト内サンプルを選択する新しいアプローチ、PromptPGを提案する。
論文 参考訳(メタデータ) (2022-09-29T08:01:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。