論文の概要: PAL: Program-aided Language Models
- arxiv url: http://arxiv.org/abs/2211.10435v1
- Date: Fri, 18 Nov 2022 18:56:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 13:59:22.449457
- Title: PAL: Program-aided Language Models
- Title(参考訳): PAL:プログラム支援言語モデル
- Authors: Luyu Gao, Aman Madaan, Shuyan Zhou, Uri Alon, Pengfei Liu, Yiming
Yang, Jamie Callan, Graham Neubig
- Abstract要約: 自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
- 参考スコア(独自算出の注目度): 112.94785609781503
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large language models (LLMs) have recently demonstrated an impressive ability
to perform arithmetic and symbolic reasoning tasks when provided with a few
examples at test time (few-shot prompting). Much of this success can be
attributed to prompting methods for reasoning, such as chain-of-thought, that
employ LLMs for both understanding the problem description by decomposing it
into steps, as well as solving each step of the problem. While LLMs seem to be
adept at this sort of step-by-step decomposition, LLMs often make logical and
arithmetic mistakes in the solution part, even when the problem is correctly
decomposed. We present Program-Aided Language models (PaL): a new method that
uses the LLM to understand natural language problems and generate programs as
the intermediate reasoning steps, but offloads the solution step to a
programmatic runtime such as a Python interpreter. With PaL, decomposing the
natural language problem into runnable steps remains the only learning task for
the LLM, while solving is delegated to the interpreter. We experiment with 12
reasoning tasks from BIG-Bench Hard and other benchmarks, including
mathematical reasoning, symbolic reasoning, and algorithmic problems. In all
these natural language reasoning tasks, generating code using an LLM and
reasoning using a Python interpreter leads to more accurate results than much
larger models, and we set new state-of-the-art results in all 12 benchmarks.
For example, PaL using Codex achieves state-of-the-art few-shot accuracy on the
GSM benchmark of math word problems when the model is allowed only a single
decoding, surpassing PaLM-540B with chain-of-thought prompting by an absolute
8% .In three reasoning tasks from the BIG-Bench Hard benchmark, PaL outperforms
CoT by 11%. On GSM-hard, a more challenging version of GSM that we create, PaL
outperforms chain-of-thought by an absolute 40%.
- Abstract(参考訳): 大規模言語モデル(llms)は最近、テスト時にいくつかの例(フェウショットプロンプト)が提供されたとき、算術および記号推論タスクを実行する素晴らしい能力を示している。
この成功の多くは、LLMをステップに分解することで問題記述を理解することと、問題の各ステップを解くことの両方に用いているチェーン・オブ・シントのような、推論の方法を促すことによる。
LLMは、このようなステップバイステップの分解に適しているように見えるが、LLMは、問題が正しく分解された場合でも、解部分において論理的および算術的誤りを犯すことが多い。
プログラム支援言語モデル(PaL: Program-Aided Language Model): LLMを用いて自然言語問題を理解し、中間的推論ステップとしてプログラムを生成するが、Pythonインタプリタなどのプログラムランタイムに解ステップをオフロードする。
PaLでは、自然言語問題を実行可能なステップに分解することがLLMの唯一の学習課題であり、解法はインタプリタに委譲される。
数学的推論,記号的推論,アルゴリズム的問題など,ビッグベンチハードや他のベンチマークから12の推論タスクを実験した。
これらの自然言語推論タスクでは、LLMを使ってコードを生成し、Pythonインタープリタを使って推論することで、より大きなモデルよりも正確な結果が得られる。
例えば、Codexを使用するPaLは、モデルが1つの復号化のみを許す場合、GSMベンチマークで最新の数ショットの精度を達成し、PLM-540Bを絶対8%の精度で上回っている。
BIG-Bench Hardベンチマークの3つの理由付けタスクでは、PaLはCoTを11%上回っている。
私たちが作成したGSMのより難しいバージョンであるGSM-hardでは、PaLはチェーンオブ思想を絶対40%上回ります。
関連論文リスト
- BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - OccamLLM: Fast and Exact Language Model Arithmetic in a Single Step [7.7168728919692855]
本稿では,1つの自己回帰的なステップで正確な算術を可能にするフレームワークを提案する。
我々は LLM の隠蔽状態を用いて演算を行う記号的アーキテクチャを制御する。
シンボルモデル(OccamLlama)としてOccamNetを用いたLlama 3の実装は,1つの算術演算において100%の精度を実現する。
論文 参考訳(メタデータ) (2024-06-04T04:17:40Z) - Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。
CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。
意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文 参考訳(メタデータ) (2024-04-23T12:16:05Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Do Language Models Exhibit the Same Cognitive Biases in Problem Solving as Human Learners? [140.9751389452011]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。
我々は,これらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリックアプローチを用いて,新しい単語問題を生成する。
論文 参考訳(メタデータ) (2024-01-31T18:48:20Z) - Zero-Shot Question Answering over Financial Documents using Large
Language Models [0.18749305679160366]
我々は,財務報告に対するマルチホップ数値推論を必要とする複雑な問題に答えるために,大規模言語モデル(LLM)に基づくアプローチを導入する。
LLMを誘導する新しいゼロショットプロンプトを使用して、必要な推論をPythonプログラムやドメイン固有言語にエンコードします。
論文 参考訳(メタデータ) (2023-11-19T16:23:34Z) - Coupling Large Language Models with Logic Programming for Robust and
General Reasoning from Text [5.532477732693001]
大規模言語モデルは, 意味論的に非常に効果的な数ショットとして機能することを示す。
自然言語文を論理形式に変換し、応答集合プログラムの入力として機能する。
本手法は,bAbI, StepGame, CLUTRR, gSCAN など,いくつかのベンチマークにおいて最先端性能を実現する。
論文 参考訳(メタデータ) (2023-07-15T03:29:59Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - MathPrompter: Mathematical Reasoning using Large Language Models [7.953723258038284]
大規模言語モデル (LLM) は算術的推論タスクを解く際の性能に制限がある。
MathPrompterはZero-shot-of- Thoughtプロンプト技術を使って複数の代数式やPython関数を生成し、異なる方法で同じ数学問題を解く。
論文 参考訳(メタデータ) (2023-03-04T04:43:49Z) - Large Language Models are Zero-Shot Reasoners [28.6899375595088]
思考の連鎖(CoT)プロンプトは、ステップバイステップの回答例を通して複雑な多段階推論を引き出す手法である。
LLMは、各回答の前に単に「ステップバイステップ」を追加して、まともなゼロショット推論子であることを示す。
実験結果から,同一のプロンプトテンプレートを用いたZero-shot-CoTはゼロショットLLM性能を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-05-24T09:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。