論文の概要: From Good to Great: Improving Math Reasoning with Tool-Augmented
Interleaf Prompting
- arxiv url: http://arxiv.org/abs/2401.05384v1
- Date: Mon, 18 Dec 2023 06:31:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 08:44:25.763550
- Title: From Good to Great: Improving Math Reasoning with Tool-Augmented
Interleaf Prompting
- Title(参考訳): Good to Great: ツール強化インターリーフプロンプトによる数学推論の改善
- Authors: Nuo Chen, Hongguang Li, Baoyuan Wang, Jia Li
- Abstract要約: IMP-TIP: Tool-augmented Interleaf Promptingによる数学推論の改善。
IMP-TIP: Tool-augmented Interleaf PromptingによるMath Reasoningの改善について紹介する。
- 参考スコア(独自算出の注目度): 45.77084082197953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the performance of Large Language Models (LLMs) and
Tool-augmented LLMs in tackling complex mathematical reasoning tasks. We
introduce IMP-TIP: Improving Math Reasoning with Tool-augmented Interleaf
Prompting, a framework that combines the strengths of both LLMs and
Tool-augmented LLMs. IMP-TIP follows the ``From Good to Great" concept,
collecting multiple potential solutions from both LLMs and their Tool-Augmented
counterparts for the same math problem, and then selecting or re-generating the
most accurate answer after cross-checking these solutions via tool-augmented
interleaf prompting. The framework incorporates two key aspects: self-prompt
and tool-augmented interleaf prompting (TIP). The former allows LLMs to
autonomously refine and improve an initial prompt related to tool usage, while
the latter enables LLMs to derive the final answer by dynamically analyzing the
problem, cross-checking potential solutions, and revising previous reasoning
hints in an interleaved manner. Experimental analysis shows that IMP-TIP
achieves enhanced mathematical capabilities and outperforms traditional LLMs
and tool-augmented LLMs in accuracy and reasoning diversity on math reasoning
tasks. For instance, IMP-TIP can improve Tool-augmented ChatGPT on GSM8K-Hard
from 56.0% to 65.2%.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) と Tool-augmented LLMs の複雑な数学的推論処理における性能について検討する。
imp-tip: llmとツール-augmented llmの両方の強みを組み合わせたフレームワークである、ツール-augmented interleaf promptingによる数学推論の改善。
IMP-TIP は `From Good to Great" という概念に従い、同じ数学問題に対して LLM とそのツール拡張されたツールから複数の潜在的なソリューションを収集し、ツール拡張インターリーフプロンプトを通じてこれらのソリューションをクロスチェックした後、最も正確な回答を選択したり、再生成する。
このフレームワークには、セルフプロンプトとツール拡張インターリーフプロンプト(TIP)という2つの重要な側面が含まれている。
前者は、LSMがツールの使用に関する最初のプロンプトを自律的に洗練し改善することを可能にし、後者は、LSMが問題を動的に解析し、潜在的な解を相互チェックし、インターリーブされた方法で以前の推論ヒントを修正することによって最終回答を導出することを可能にする。
実験分析の結果,IMP-TIPは数学能力の向上を実現し,従来のLLMやツール拡張LDMよりも精度が高く,数学的推論タスクの多様性も高いことがわかった。
例えば imp-tip は gsm8k-hard のツールによる chatgpt を 56.0% から 65.2% に改善できる。
関連論文リスト
- Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Look Before You Leap: Towards Decision-Aware and Generalizable Tool-Usage for Large Language Models [26.28459880766842]
意思決定・汎用ツール・ユース・フレームワーク(DEER)を提案する。
具体的には、まず、自動生成パイプラインを介して、複数の決定ブランチを持つツール使用サンプルを構築します。
提案するDEERは, 各種データセットのベースラインよりも効果的で, 著しく優れる。
論文 参考訳(メタデータ) (2024-02-26T16:11:03Z) - Efficient Tool Use with Chain-of-Abstraction Reasoning [65.18096363216574]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。
マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。
マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-30T21:53:30Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z) - Multimodal Multi-Hop Question Answering Through a Conversation Between
Tools and Efficiently Finetuned Large Language Models [20.52053559484399]
我々は、複雑なマルチホップ質問に答えるために、ツールと相互作用する分割・クエリ戦略を採用する。
LLMの推論能力を高めるため,チャットGPTにツール間相互作用型分割・クエリーデータセットを生成する。
提案手法の有効性を評価するため,最近導入された2つの複雑な質問応答データセットについて評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:22:22Z) - CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models [74.22729793816451]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。
我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。
我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。