Fugu-MT 論文翻訳(概要): Program of Thoughts Prompting: Disentangling Computation from Reasoning for Numerical Reasoning Tasks

論文の概要: Program of Thoughts Prompting: Disentangling Computation from Reasoning for Numerical Reasoning Tasks

arxiv url: http://arxiv.org/abs/2211.12588v4
Date: Mon, 23 Oct 2023 01:27:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 14:14:04.294327
Title: Program of Thoughts Prompting: Disentangling Computation from Reasoning for Numerical Reasoning Tasks
Title（参考訳）: 思考の実証プログラム:数値推論タスクにおける推論から計算を遠ざける
Authors: Wenhu Chen, Xueguang Ma, Xinyi Wang, William W. Cohen
Abstract要約: CoT(Chain-of-thinkts prompting)は、これらのタスクに対する最先端の手法である。本稿では、言語モデルを用いて推論過程をプログラムとして表現する「思考プログラム(PoT)」を提案する。 PoTは、評価されたすべてのデータセットに対して、CoTに対する平均的なパフォーマンス向上を約12%示すことができる。
参考スコア（独自算出の注目度）: 108.4568236569645
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, there has been significant progress in teaching language models to perform step-by-step reasoning to solve complex numerical reasoning tasks. Chain-of-thoughts prompting (CoT) is by far the state-of-art method for these tasks. CoT uses language models to perform both reasoning and computation in the multi-step `thought' process. To disentangle computation from reasoning, we propose `Program of Thoughts' (PoT), which uses language models (mainly Codex) to express the reasoning process as a program. The computation is relegated to an external computer, which executes the generated programs to derive the answer. We evaluate PoT on five math word problem datasets (GSM, AQuA, SVAMP, TabMWP, MultiArith) and three financial-QA datasets (FinQA, ConvFinQA, TATQA) for both few-shot and zero-shot setups. Under both few-shot and zero-shot settings, PoT can show an average performance gain over CoT by around 12\% across all the evaluated datasets. By combining PoT with self-consistency decoding, we can achieve SoTA performance on all math problem datasets and near-SoTA performance on financial datasets. All of our data and code are released in Github https://github.com/wenhuchen/Program-of-Thoughts
Abstract（参考訳）: 近年,複雑な数値推論タスクを解くために,ステップバイステップ推論を行う言語モデルが大幅に進歩している。 CoT(Chain-of-thinkts prompting)は、これらのタスクに対する最先端の手法である。 CoTは言語モデルを使用して、多段階の ‘Thought’ プロセスで推論と計算の両方を実行する。推論から計算を遠ざけるために,言語モデル(主にコーデックス)を用いて推論過程をプログラムとして表現する'PoT'(Program of Thoughts)を提案する。計算は外部コンピュータに委譲され、生成されたプログラムを実行して回答を導出する。我々は,5つの算術語問題データセット(GSM,AQuA,SVAMP,TabMWP,MultiArith)と3つの財務QAデータセット(FinQA,ConvFinQA,TATQA)を用いて,小ショットとゼロショットの両方でPoTを評価する。数ショットとゼロショットの両方の設定で、PoTは評価されたデータセット全体の平均12倍のパフォーマンス向上を示すことができる。 PoTと自己整合性デコーディングを組み合わせることで、すべての数学問題データセットでSoTA性能、財務データセットでほぼSoTA性能を達成することができる。すべてのデータとコードはGithub https://github.com/wenhuchen/Program-of-Thoughtsで公開されています。

関連論文リスト

Agentic-R1: Distilled Dual-Strategy Reasoning [44.848089301154026]
現在のロングチェーン・オブ・ソート(ロングCoT)モデルは数学的推論において優れているが、遅くてエラーを起こしやすい自然言語トレースに依存している。複数の教師の補完的推論戦略を統合された学生モデルに蒸留する微調整フレームワークであるDualDistillを導入する。本手法は,計算集約型ベンチマークと標準ベンチマークの両方を含むタスクの精度を向上する。
論文参考訳（メタデータ） (2025-07-08T06:35:16Z)
Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
我々は,新しいプロンプトフレームワークであるSketch-of-Thought(SoT)を紹介する。認知に触発された推論パラダイムと言語制約を組み合わせることでトークンの使用を最小化する。 SoTは、無視できる精度の影響でトークンを76%削減する。
論文参考訳（メタデータ） (2025-03-07T06:57:17Z)
ReasonAgain: Using Extractable Symbolic Programs to Evaluate Mathematical Reasoning [54.70811660561151]
既存の数学データセットは、最終回答または静的例から派生した中間推論ステップを用いて、大規模言語モデル(LLM)の推論能力を評価する。モデルがプログラムへの様々な入力に対して常に正しい最終回答を生成できる場合、シンボルプログラムを自動評価の手段として利用したいと考えている。提案手法は, 従来の静的な例と比較して, 精度の低下を観測し, 現状のLLMにおける数学推論の脆弱さを示唆する。
論文参考訳（メタデータ） (2024-10-24T18:02:37Z)
To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning [55.52872152909785]
Chain-of-Thought (CoT) は,大規模言語モデル (LLM) から推論能力を引き出すデファクト手法である。私たちは、CoTが主に数学や論理学を含むタスクに強いパフォーマンス上の利点をもたらし、他のタスクよりもはるかに少ない利益をもたらすことを示しています。
論文参考訳（メタデータ） (2024-09-18T17:55:00Z)
How Do Humans Write Code? Large Models Do It the Same Way Too [14.954886191356342]
Program-of-Thought(PoT)は、自然言語ベースのChain-of-Thought(CoT)を、大規模言語モデルにおいて最も一般的な方法として置き換える。 PoTを使用すると、CoTと比較して、不正な公式や欠陥論理などの推論エラーがより多く導入される。本稿では,PoTとCoTの統合を支援する一連の戦略を活用するHTL(Human-Think Language)を提案する。
論文参考訳（メタデータ） (2024-02-24T05:40:01Z)
Design of Chain-of-Thought in Math Problem Solving [8.582686316167973]
CoT (Chain-of-Thought) は数学の問題解決において重要な役割を担っている。従来の自然言語CoTと,自己記述プログラム,コメント記述プログラム,非記述プログラムなど,さまざまなプログラムCoTを比較した。プログラムCoTsは数学問題の解法において優れた効率性を持つことが多い。
論文参考訳（メタデータ） (2023-09-20T04:17:28Z)
Evaluating and Improving Tool-Augmented Computation-Intensive Math Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。 CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2023-06-04T17:02:59Z)
Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models [23.805926737723603]
大規模言語モデル(LLM)の推論ステップを生成するために、手作業でステップバイステップの推論デモを作成することができる。 Zero-shot-CoTs は LLM への入力プロンプトとして "Let's Think by Step" でターゲット問題文をプロンプトする。提案したゼロショットのプロンプトが全データセットでゼロショットCoTをはるかに上回っていることを示す。
論文参考訳（メタデータ） (2023-05-06T16:34:37Z)
ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational Finance Question Answering [70.6359636116848]
本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。
論文参考訳（メタデータ） (2022-10-07T23:48:50Z)
Dynamic Prompt Learning via Policy Gradient for Semi-structured Mathematical Reasoning [150.17907456113537]
数学的な推論を必要とする38,431のグレードレベルの問題を含む新しいデータセットであるTabular Math Word Problems (TabMWP)を提案する。我々は,GPT-3モデルを含む,TabMWP上での事前学習モデルの評価を行った。本稿では、ポリシー勾配を利用して、少量のトレーニングデータからコンテキスト内サンプルを選択する新しいアプローチ、PromptPGを提案する。
論文参考訳（メタデータ） (2022-09-29T08:01:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。