論文の概要: Forward-Backward Reasoning in Large Language Models for Mathematical
Verification
- arxiv url: http://arxiv.org/abs/2308.07758v4
- Date: Fri, 29 Sep 2023 15:06:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 17:46:59.108358
- Title: Forward-Backward Reasoning in Large Language Models for Mathematical
Verification
- Title(参考訳): 数学的検証のための大規模言語モデルの前方逆推論
- Authors: Weisen Jiang and Han Shi and Longhui Yu and Zhengying Liu and Yu Zhang
and Zhenguo Li and James T. Kwok
- Abstract要約: 自己整合性(Self-Consistency)は、さまざまな回答を持つ推論チェーンをサンプリングし、多数決によって回答を選択する。
本稿では,回答検証に後方推論を統合することを提案する。
- 参考スコア(独自算出の注目度): 69.25666654865826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought (CoT) prompting in large language models (LLMs) has shown
promising performance on mathematical reasoning tasks. Recently,
Self-Consistency samples a diverse set of reasoning chains with different
answers and chooses the answer by majority voting. Though effective, its
performance cannot be further improved by sampling more reasoning chains. To
address this problem, we propose to integrate backward reasoning into answer
verification. We first mask a number in the question by ${\bf x}$. The LLM is
then asked to predict the masked number with a candidate answer $A$ embedded in
the template: ``If we know the answer to the above question is $\{A\}$, what is
the value of unknown variable ${\bf x}$?'' The LLM is expected to predict the
masked number successfully if the provided candidate answer is correct. To
further improve performance, we propose FOBAR (FOrward-BAckward Reasoning) to
combine forward and backward reasoning for verifying candidate answers.
Experiments are performed on six standard mathematical data sets and three LLMs
(text-davinci-003, GPT-3.5-Turbo, GPT-4). Results show that FOBAR achieves
state-of-the-art performance. In particular, FOBAR outperforms Self-Consistency
which uses forward reasoning alone, demonstrating that combining forward and
forward reasoning is better. It also outperforms existing verification methods,
verifying the effectiveness of using the simple template in backward reasoning
and the proposed combination.
- Abstract(参考訳): CoT(Chain-of-Thought)は、大規模言語モデル(LLM)において、数学的推論タスクにおいて有望な性能を示す。
最近、自己矛盾は異なる回答を持つ様々な推論チェーンをサンプリングし、多数決で答えを選択する。
効果的ではあるが、より多くの推論チェーンをサンプリングすることで、さらなる性能向上はできない。
この問題に対処するため,回答検証に後方推論を統合することを提案する。
最初に、問題の数値を${\bf x}$でマスクする。
上記の質問に対する答えが $\{a\}$ であるなら、未知変数 ${\bf x}$?'' の値は、与えられた候補の回答が正しければ、llmはマスク番号を正しく予測することが期待される。
性能をさらに向上させるため,提案手法であるfobar (forward-backward reasoning) を提案する。
6つの標準的な数学的データセットと3つのLCM(text-davinci-003, GPT-3.5-Turbo, GPT-4)で実験を行う。
その結果,FOBARは最先端の性能を達成することがわかった。
特に、FOBARはフォワード推論のみを使用し、フォワード推論とフォワード推論の組み合わせがより優れていることを示すセルフ一貫性よりも優れています。
また、既存の検証手法を上回り、後方推論における単純なテンプレートの使用の有効性と提案の組み合わせを検証する。
関連論文リスト
- Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models [84.15513004135576]
最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、Large Language Models(LLMs)の推論性能を向上させる。
このアプローチは、正しい答えが少数派である場合に失敗する。
階層的推論集約フレームワークAoRを導入し、推論連鎖の評価に基づいて回答を選択する。
論文 参考訳(メタデータ) (2024-05-21T17:12:19Z) - Premise Order Matters in Reasoning with Large Language Models [57.18850969634412]
大規模言語モデル (LLM) は,前提の順序に驚くほど脆弱であることを示す。
前提順序が中間的推論ステップで要求されるコンテキストと一致した場合, LLM が最高の性能を達成することを観察する。
論文 参考訳(メタデータ) (2024-02-14T04:50:18Z) - On the Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks [17.329365493094542]
ゲーム・オブ・24(Game of 24)とグラフカラー化(Graph Coloring)とSTRIPSプランニング(STRIPS Planning)の3分野において,GPT-4の性能に関する実証的研究を行った。
我々は,自己批判による顕著なパフォーマンス崩壊と,音外検証による顕著なパフォーマンス向上を観察した。
論文 参考訳(メタデータ) (2024-02-12T23:11:01Z) - Question Decomposition Improves the Faithfulness of Model-Generated
Reasoning [23.34325378824462]
大規模言語モデル(LLM)は、その振る舞いの正しさと安全性を検証するのが困難である。
一つのアプローチは、LLMが質問に答えるときにステップバイステップの推論を生成することによって、彼らの推論を外部化するように促すことである。
このアプローチは、モデルの実的推論を忠実に反映する記述された推論に依存しており、必ずしもそうではない。
分解に基づく手法は、時にはCoTの手法に近づき、質問応答タスクにおいて高い性能を達成する。
論文 参考訳(メタデータ) (2023-07-17T00:54:10Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z) - Complexity-Based Prompting for Multi-Step Reasoning [72.0057198610614]
大規模言語モデルに対して,多段階推論を行うための課題について検討する。
中心的な疑問は、どの推論例が最も効果的なプロンプトを作るかである。
多段階推論のためのシンプルで効果的な例選択方式である複雑性ベースのプロンプトを提案する。
論文 参考訳(メタデータ) (2022-10-03T05:33:27Z) - Faithful Reasoning Using Large Language Models [12.132449274592668]
因果構造が問題の根底にある論理構造を反映するプロセスを通じて、LMを忠実な多段階推論を行う方法を示す。
我々の手法は、各ステップが2つの微調整されたLMへの呼び出しから得られる推論ステップをチェーンすることで機能する。
我々は,多段階論理推論と科学的質問応答におけるモデルの有効性を実証し,最終的な解答精度のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-30T13:44:41Z) - Generative Context Pair Selection for Multi-hop Question Answering [60.74354009152721]
マルチホップ質問応答のための生成コンテキスト選択モデルを提案する。
提案した生成経路選択モデルは,対向保留集合上でのより良い性能(ベースラインより4.9%高い)を有する。
論文 参考訳(メタデータ) (2021-04-18T07:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。