論文の概要: SatLM: Satisfiability-Aided Language Models Using Declarative Prompting
- arxiv url: http://arxiv.org/abs/2305.09656v3
- Date: Wed, 11 Oct 2023 21:38:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 15:25:39.090453
- Title: SatLM: Satisfiability-Aided Language Models Using Declarative Prompting
- Title(参考訳): SatLM: 宣言型プロンプトを用いた満足度支援言語モデル
- Authors: Xi Ye, Qiaochu Chen, Isil Dillig, Greg Durrett
- Abstract要約: 本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
- 参考スコア(独自算出の注目度): 68.40726892904286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior work has combined chain-of-thought prompting in large language models
(LLMs) with programmatic representations to perform effective and transparent
reasoning. While such an approach works well for tasks that only require
forward reasoning (e.g., straightforward arithmetic), it is less effective for
constraint solving problems that require more sophisticated planning and
search. In this paper, we propose a new satisfiability-aided language modeling
(SatLM) approach for improving the reasoning capabilities of LLMs. We use an
LLM to generate a declarative task specification rather than an imperative
program and leverage an off-the-shelf automated theorem prover to derive the
final answer. This approach has two key advantages. The declarative
specification is closer to the problem description than the reasoning steps
are, so the LLM can parse it out of the description more accurately.
Furthermore, by offloading the actual reasoning task to an automated theorem
prover, our approach can guarantee the correctness of the answer with respect
to the parsed specification and avoid planning errors in the solving process.
We evaluate SATLM on 8 different datasets and show that it consistently
outperforms program-aided LMs in the imperative paradigm. In particular, SATLM
outperforms program-aided LMs by 23% on a challenging subset of the GSM
arithmetic reasoning dataset; SATLM also achieves a new SoTA on LSAT and
BoardgameQA, surpassing previous models that are trained on the respective
training sets.
- Abstract(参考訳): これまでの研究は、大規模言語モデル(LLM)におけるチェーン・オブ・シークレットとプログラム表現を組み合わせることで、効果的で透明な推論を実現してきた。
このようなアプローチは、前方推論のみを必要とするタスク(例えば、単純算術)ではうまく機能するが、より洗練された計画と探索を必要とする問題の制約にはあまり効果がない。
本稿では,LLMの推論能力を向上させるために,新しい満足度支援言語モデリング(SatLM)手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明を利用して最終解を導出する。
このアプローチには2つの大きな利点がある。
宣言的な仕様は推論ステップよりも問題記述に近いので、LCMは記述からより正確に解析することができる。
さらに、自動定理証明器に実際の推論タスクをオフロードすることにより、解析された仕様に対する回答の正しさを保証し、解法における計画誤差を回避することができる。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムでプログラム支援されたLMを一貫して上回ることを示す。
特にSATLMは、GSM算術推論データセットの挑戦的なサブセットでプログラム支援LMを23%上回り、SATLMはLSATおよびボードゲームQA上の新しいSoTAも達成し、各トレーニングセットでトレーニングされた以前のモデルを上回っている。
関連論文リスト
- Zero-Shot Question Answering over Financial Documents using Large
Language Models [0.18749305679160366]
我々は,財務報告に対するマルチホップ数値推論を必要とする複雑な問題に答えるために,大規模言語モデル(LLM)に基づくアプローチを導入する。
LLMを誘導する新しいゼロショットプロンプトを使用して、必要な推論をPythonプログラムやドメイン固有言語にエンコードします。
論文 参考訳(メタデータ) (2023-11-19T16:23:34Z) - Guiding Language Model Math Reasoning with Planning Tokens [128.57605860640948]
各推論ステップの開始時に計画トークンを導入し、モデルのガイドとして機能し、モデルパラメータにそれらの埋め込みを追加する。
提案手法では、トレーニング可能なパラメータ(わずか0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z) - Fill in the Blank: Exploring and Enhancing LLM Capabilities for Backward
Reasoning in Math Word Problems [18.69394742883921]
後方推論は数学用語の問題では 比較的未発見です
4つのSOTA LLMにおける前方推論と比較して,後方推論におけるモデルの精度は著しく低下した。
PAL-Tools はプログラム支援 LLM のアイデアを組み合わせて,外部の解法で解ける方程式の集合を生成し, 作業確認は, 前方方向の精度の高い自然検証器の可用性を活用する。
論文 参考訳(メタデータ) (2023-10-03T12:03:06Z) - Hypothesis Search: Inductive Reasoning with Language Models [41.36577403707967]
大規模言語モデル(LLM)の帰納的推論能力を改善することを提案する。
我々は LLM に対して,問題に関する複数の抽象的仮説を自然言語で提案し,その後,具体的なPython プログラムとして自然言語仮説を実装した。
我々は、ARC視覚誘導推論ベンチマーク、その変種1D-ARC、文字列変換データセットSyGuSにおけるパイプラインの有効性を検証する。
論文 参考訳(メタデータ) (2023-09-11T17:56:57Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - Evaluating and Improving Tool-Augmented Computation-Intensive Math
Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。
ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。
CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-06-04T17:02:59Z) - Learning to Plan with Natural Language [111.76828049344839]
大規模言語モデル(LLM)は、様々な基本自然言語タスクにおいて顕著な性能を示している。
複雑なタスクを完了するためには、ステップごとに特定のソリューションを生成するためにLCMをガイドするタスクの計画が必要です。
本研究では,(1)第1学習課題計画フェーズにおいて,LCMが学習エラーフィードバックから導出するように促した新たなステップバイステップのソリューションと行動指示を用いてタスク計画を反復的に更新する,という2つの段階を含む学習計画手法を提案する。
論文 参考訳(メタデータ) (2023-04-20T17:09:12Z) - MathPrompter: Mathematical Reasoning using Large Language Models [7.953723258038284]
大規模言語モデル (LLM) は算術的推論タスクを解く際の性能に制限がある。
MathPrompterはZero-shot-of- Thoughtプロンプト技術を使って複数の代数式やPython関数を生成し、異なる方法で同じ数学問題を解く。
論文 参考訳(メタデータ) (2023-03-04T04:43:49Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。