論文の概要: LPML: LLM-Prompting Markup Language for Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2309.13078v2
- Date: Wed, 11 Oct 2023 12:21:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 03:28:35.494745
- Title: LPML: LLM-Prompting Markup Language for Mathematical Reasoning
- Title(参考訳): LPML:数学的推論のためのLLMプロンプトマークアップ言語
- Authors: Ryutaro Yamauchi, Sho Sonoda, Akiyoshi Sannai, Wataru Kumagai
- Abstract要約: 外部ツール(Python REPL)とChain-of-Thought(CoT)メソッドを統合する新しいフレームワークを提案する。
提案手法は,ゼロショットプロンプトのみを用いて,LLMがマークアップ言語を記述し,高度な数学的推論を行うことを可能にする。
- 参考スコア(独自算出の注目度): 8.995617701116142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In utilizing large language models (LLMs) for mathematical reasoning,
addressing the errors in the reasoning and calculation present in the generated
text by LLMs is a crucial challenge. In this paper, we propose a novel
framework that integrates the Chain-of-Thought (CoT) method with an external
tool (Python REPL). We discovered that by prompting LLMs to generate structured
text in XML-like markup language, we could seamlessly integrate CoT and the
external tool and control the undesired behaviors of LLMs. With our approach,
LLMs can utilize Python computation to rectify errors within CoT. We applied
our method to ChatGPT (GPT-3.5) to solve challenging mathematical problems and
demonstrated that combining CoT and Python REPL through the markup language
enhances the reasoning capability of LLMs. Our approach enables LLMs to write
the markup language and perform advanced mathematical reasoning using only
zero-shot prompting.
- Abstract(参考訳): 数学的推論に大規模言語モデル(LLM)を利用する場合、LLMが生成したテキストにある推論と計算の誤りに対処することが非常に難しい。
本稿では,CoT(Chain-of-Thought)メソッドを外部ツール(Python REPL)と統合する新しいフレームワークを提案する。
我々は、LLMにXMLのようなマークアップ言語で構造化テキストを生成するよう促すことで、CoTと外部ツールをシームレスに統合し、LLMの望ましくない動作を制御することができることがわかった。
我々のアプローチでは、LLMはPython計算を利用してCoT内のエラーを修正できる。
本手法をChatGPT (GPT-3.5) に適用し, マークアップ言語によるCoTとPython REPLの組み合わせは, LLMの推論能力を向上することを示した。
提案手法では,ゼロショットプロンプトのみを用いてマークアップ言語を記述し,高度な数学的推論を行う。
関連論文リスト
- Which Syntactic Capabilities Are Statistically Learned by Masked
Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。
これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文 参考訳(メタデータ) (2024-01-03T02:44:02Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Turbulence: Systematically and Automatically Testing Instruction-Tuned
Large Language Models for Code [12.58098809948832]
本稿では,新しいベンチマークである乱流を用いて,命令調整型大規模言語モデル(LLM)のコード生成における正確性と堅牢性を評価する手法を提案する。
乱流は、多数の自然言語の$textitquestion templates$から成り、それぞれがプログラミングの問題であり、様々な形式で問うことができるようにパラメータ化されている。
単一の質問テンプレートから、LLM に $textitneighbourhood$ と非常によく似たプログラミング質問を問うことができ、各質問に対して返された結果の正しさを評価することができる。
論文 参考訳(メタデータ) (2023-12-22T17:29:08Z) - Zero-Shot Question Answering over Financial Documents using Large
Language Models [0.18749305679160366]
我々は,財務報告に対するマルチホップ数値推論を必要とする複雑な問題に答えるために,大規模言語モデル(LLM)に基づくアプローチを導入する。
LLMを誘導する新しいゼロショットプロンプトを使用して、必要な推論をPythonプログラムやドメイン固有言語にエンコードします。
論文 参考訳(メタデータ) (2023-11-19T16:23:34Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - Table Meets LLM: Can Large Language Models Understand Structured Table
Data? A Benchmark and Empirical Study [47.6239689986714]
大規模言語モデル(LLM)は、自然言語(NL)に関連する課題を解決するために、数ショットの推論器として魅力的になってきている。
我々は,LLMの構造理解能力(SUC)を評価するためのベンチマークを設計することで,これを理解しようとしている。
その結果、テーブル入力形式、コンテンツ順序、ロールプロンプト、パーティションマークなど、いくつかの入力選択によってパフォーマンスが変化していることが判明した。
論文 参考訳(メタデータ) (2023-05-22T14:23:46Z) - Logic-LM: Empowering Large Language Models with Symbolic Solvers for
Faithful Logical Reasoning [101.26814728062065]
大規模言語モデル(LLM)は人間のような推論能力を示しているが、それでも複雑な論理的問題に悩まされている。
本稿では,論理問題の解法を改善するために,LLMとシンボリックソルバを統合した新しいフレームワークであるLogic-LMを紹介する。
論文 参考訳(メタデータ) (2023-05-20T22:25:38Z) - LLM+P: Empowering Large Language Models with Optimal Planning
Proficiency [46.20085545432116]
大規模言語モデル(LLM)は、目覚ましいゼロショットの一般化能力を示している。
古典的なプランナーは、一度形式化された方法で問題が与えられると、効率的な検索アルゴリズムを使って、正しい、あるいは最適なプランを素早く特定できる。
本稿では,従来のプランナーの強みを LLM に組み込んだ最初のフレームワークである LLM+P を紹介する。
論文 参考訳(メタデータ) (2023-04-22T20:34:03Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。