論文の概要: Large Language Models are Better Reasoners with Self-Verification
- arxiv url: http://arxiv.org/abs/2212.09561v3
- Date: Tue, 23 May 2023 16:39:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 00:42:17.345412
- Title: Large Language Models are Better Reasoners with Self-Verification
- Title(参考訳): 大規模言語モデルによる自己検証による推論精度の向上
- Authors: Yixuan Weng, Minjun Zhu, Fei Xia, Bin Li, Shizhu He, Kang Liu, Jun
Zhao
- Abstract要約: 思考の連鎖(CoT)はいくつかの自然言語処理タスクにおいて強い推論能力を示している。
CoT の LLM は多段階のプロンプトと多段階の予測を必要とし、個々のミスに非常に敏感であり、エラーの蓄積に脆弱である。
また,LLMにも同様な自己検証能力があることを示す。
- 参考スコア(独自算出の注目度): 23.89579895210037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, with the chain of thought (CoT) prompting, large language models
(LLMs), e.g., GPT-3, have shown strong reasoning ability in several natural
language processing tasks such as arithmetic, commonsense, and logical
reasoning. However, LLMs with CoT require multi-step prompting and multi-token
prediction, which is highly sensitive to individual mistakes and vulnerable to
error accumulation. The above issues make the LLMs need the ability to verify
the answers. In fact, after inferring conclusions in some thinking decision
tasks, people often check them by re-verifying steps to avoid some mistakes. In
this paper, we propose and prove that LLMs also have similar self-verification
abilities. We take the conclusion obtained by CoT as one of the conditions for
solving the original problem. By taking turns masking the original conditions
and predicting their results, we calculate an explainable answer verification
score based on whether the re-predicted conditions are correct. Experimental
results demonstrate that the proposed method can improve the reasoning
performance on various arithmetic, commonsense, and logical reasoning datasets.
- Abstract(参考訳): 近年、思考(CoT)の連鎖により、GPT-3のような大規模言語モデル(LLM)は、算術、常識、論理的推論といったいくつかの自然言語処理タスクにおいて強い推論能力を示している。
しかし、CoT を用いた LLM では、複数ステップのプロンプトとマルチトークン予測が必要であり、個々のミスに非常に敏感であり、エラーの蓄積に弱い。
上記の問題は、LLMが答えを検証する能力を必要としている。
実際、ある思考決定タスクで結論を推論した後、人々は間違いを避けるためのステップを再検証することでそれらをチェックします。
本稿では,LLMにも類似した自己検証能力があることを示す。
本稿では,CoTによる結論を,元の問題を解決する条件の一つとみなす。
原条件をマスキングし、その結果を予測することにより、再予測された条件が正しいかどうかに基づいて説明可能な回答検証スコアを算出する。
実験の結果,提案手法は様々な算術,コモンセンス,論理推論データセットの推論性能を向上させることができることがわかった。
関連論文リスト
- Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - CLadder: Assessing Causal Reasoning in Language Models [82.8719238178569]
我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。
ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
論文 参考訳(メタデータ) (2023-12-07T15:12:12Z) - Zero-Shot Question Answering over Financial Documents using Large
Language Models [0.18749305679160366]
我々は,財務報告に対するマルチホップ数値推論を必要とする複雑な問題に答えるために,大規模言語モデル(LLM)に基づくアプローチを導入する。
LLMを誘導する新しいゼロショットプロンプトを使用して、必要な推論をPythonプログラムやドメイン固有言語にエンコードします。
論文 参考訳(メタデータ) (2023-11-19T16:23:34Z) - SELF-EXPLAIN: Teaching Large Language Models to Reason Complex Questions
by Themselves [9.68886683868545]
本研究では,大規模言語モデル(LLM)が人為的な実演を伴わずに理性を教えることができるかどうかを考察する。
人間の記憶検索における「符号化特異性」にインスパイアされたLLMを用いて,SELF-EXPLAINを用いてCoTのサンプルを生成する。
自己説明を用いることで、LLMはより自信を持ち、より校正され、複雑な質問に答えるときにバイアスが少なくなる。
論文 参考訳(メタデータ) (2023-11-12T23:14:43Z) - Forward-Backward Reasoning in Large Language Models for Mathematical
Verification [69.25666654865826]
自己整合性(Self-Consistency)は、さまざまな推論チェーンの回答をサンプリングし、多数決によって最終回答を選択する。
候補解の検証に後方推論を導入する。
検証のための FOrward と BAckward Reasoning は最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-15T13:19:59Z) - SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step
Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。
我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文 参考訳(メタデータ) (2023-08-01T10:31:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。