論文の概要: Evaluating and Improving Tool-Augmented Computation-Intensive Math
Reasoning
- arxiv url: http://arxiv.org/abs/2306.02408v1
- Date: Sun, 4 Jun 2023 17:02:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 18:08:39.349846
- Title: Evaluating and Improving Tool-Augmented Computation-Intensive Math
Reasoning
- Title(参考訳): ツール強化型計算集約型数学推論の評価と改善
- Authors: Beichen Zhang, Kun Zhou, Xilin Wei, Wayne Xin Zhao, Jing Sha, Shijin
Wang, Ji-Rong Wen
- Abstract要約: CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。
ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。
CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
- 参考スコア(独自算出の注目度): 75.74103236299477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-thought prompting~(CoT) and tool augmentation have been validated in
recent work as effective practices for improving large language models~(LLMs)
to perform step-by-step reasoning on complex math-related tasks. However, most
existing math reasoning datasets may be not able to fully evaluate and analyze
the ability of LLMs in manipulating tools and performing reasoning, as they may
only require very few invocations of tools or miss annotations for evaluating
intermediate reasoning steps. To address the issue, we construct \textbf{CARP},
a new Chinese dataset consisting of 4,886 computation-intensive algebra
problems with formulated annotations on intermediate steps. In CARP, we test
four LLMs with CoT prompting, and find that they are all prone to make mistakes
at the early steps of the solution, leading to wrong answers. Based on this
finding, we propose a new approach that can deliberate the reasoning steps with
tool interfaces, namely \textbf{DELI}. In DELI, we first initialize a
step-by-step solution based on retrieved exemplars, then iterate two
deliberation procedures that check and refine the intermediate steps of the
generated solution, from the perspectives of tool manipulation and natural
language reasoning, until obtaining converged solutions or reaching the maximum
turn. Experimental results on CARP and six other datasets show that the
proposed DELI mostly outperforms competitive baselines, and can further boost
the performance of existing CoT methods. Our data and code are available in
\url{https://github.com/RUCAIBox/CARP}.
- Abstract(参考訳): CoT)とツール拡張は、複雑な数学関連のタスクにおいてステップバイステップの推論を行うために、大規模言語モデルの改善のための効果的なプラクティスとして、近年検証されている。
しかしながら、ほとんどの既存の数学推論データセットは、中間推論ステップを評価するのに、ツールの呼び出しやアノテーションのミスをほとんど必要とせず、ツールの操作や推論の実行においてLLMの能力を十分に評価し分析できないかもしれない。
この問題に対処するため,中間段階に定式化アノテーションを付加した4,886個の計算集約代数問題からなる中国語データセットである「textbf{CARP}」を構築した。
CARPでは、CoTプロンプトで4つのLCMをテストし、ソリューションの初期段階で間違いを犯しがちであることを発見し、間違った答えを導きます。
この知見に基づいて,ツールインタフェースを用いた推論手順を考察できる新しい手法,すなわち \textbf{deli} を提案する。
DELIでは、まず、抽出した例に基づいてステップバイステップの解を初期化し、ツール操作や自然言語推論の観点から、生成した解の中間ステップを検証・洗練する2つの検討手順を反復し、収束した解を得るか、最大回転に達するまで行う。
CARPと他の6つのデータセットの実験結果から、提案したDELIは競争ベースラインよりも優れており、既存のCoTメソッドの性能をさらに向上させることができる。
我々のデータとコードは \url{https://github.com/RUCAIBox/CARP} で利用可能です。
関連論文リスト
- Reverse That Number! Decoding Order Matters in Arithmetic Learning [49.5504492920404]
本研究は,最少の桁から出力を優先順位付けすることで,桁順を再評価する新たな戦略を導入する。
従来のSOTA法と比較すると,通常のトレーニングで使用するトークンの3分の1しか必要とせず,精度の全体的な改善が見られた。
論文 参考訳(メタデータ) (2024-03-09T09:04:53Z) - Efficient Tool Use with Chain-of-Abstraction Reasoning [65.18096363216574]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。
マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。
マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-30T21:53:30Z) - From Good to Great: Improving Math Reasoning with Tool-Augmented
Interleaf Prompting [45.77084082197953]
IMP-TIP: Tool-augmented Interleaf Promptingによる数学推論の改善。
IMP-TIP: Tool-augmented Interleaf PromptingによるMath Reasoningの改善について紹介する。
論文 参考訳(メタデータ) (2023-12-18T06:31:23Z) - Guiding Language Model Math Reasoning with Planning Tokens [128.57605860640948]
各推論ステップの開始時に計画トークンを導入し、モデルのガイドとして機能し、モデルパラメータにそれらの埋め込みを追加する。
提案手法では、トレーニング可能なパラメータ(わずか0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z) - Self-Polish: Enhance Reasoning in Large Language Models via Problem
Refinement [53.68527732113678]
本稿では,モデルの問題解決プロセスを容易にする新しい手法であるSelf-Polish(SP)を提案する。
SPは、無関係な情報を排除し、論理構造を再構成し、局所条件を新しいものに並列に整理するようにモデルに教える。
提案手法の有効性を明らかにするため,5つのベンチマークで徹底的な実験を行った。
論文 参考訳(メタデータ) (2023-05-23T19:58:30Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - Arguments to Key Points Mapping with Prompt-based Learning [0.0]
本稿では,パラメータ対キーポイントマッピングタスクに対する2つのアプローチを提案する。
最初のアプローチは、事前訓練された言語モデルを微調整するためのプロンプトエンジニアリングを統合することである。
第二のアプローチは、PLMにおけるプロンプトベースの学習を利用して中間テキストを生成する。
論文 参考訳(メタデータ) (2022-11-28T01:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。