論文の概要: Large Language Models are Better Reasoners with Self-Verification
- arxiv url: http://arxiv.org/abs/2212.09561v5
- Date: Thu, 19 Oct 2023 12:24:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 20:59:38.676601
- Title: Large Language Models are Better Reasoners with Self-Verification
- Title(参考訳): 大規模言語モデルによる自己検証による推論精度の向上
- Authors: Yixuan Weng, Minjun Zhu, Fei Xia, Bin Li, Shizhu He, Shengping Liu,
Bin Sun, Kang Liu, Jun Zhao
- Abstract要約: 大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
- 参考スコア(独自算出の注目度): 48.534270563880845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, with the chain of thought (CoT) prompting, large language models
(LLMs), e.g., GPT-3, have shown strong reasoning ability in several natural
language processing tasks such as arithmetic, commonsense, and logical
reasoning. However, LLMs with CoT require multi-step prompting and multi-token
prediction, which is highly sensitive to individual mistakes and vulnerable to
error accumulation. The above issues make the LLMs need the ability to verify
the answers. In fact, after inferring conclusions in some thinking decision
tasks, people often check them by re-verifying steps to avoid some mistakes. In
this paper, we propose and prove that LLMs also have similar self-verification
abilities. We take the conclusion obtained by CoT as one of the conditions for
solving the original problem. By performing a backward verification of the
answers that LLM deduced for itself, we can obtain interpretable answer
validation scores to select the candidate answer with the highest score.
Experimental results demonstrate that the proposed method can improve the
reasoning performance on various arithmetic, commonsense, and logical reasoning
datasets. Our code is publicly available at:
https://github.com/WENGSYX/Self-Verification.
- Abstract(参考訳): 近年、思考(CoT)の連鎖により、GPT-3のような大規模言語モデル(LLM)は、算術、常識、論理的推論といったいくつかの自然言語処理タスクにおいて強い推論能力を示している。
しかし、CoT を用いた LLM では、複数ステップのプロンプトとマルチトークン予測が必要であり、個々のミスに非常に敏感であり、エラーの蓄積に弱い。
上記の問題は、LLMが答えを検証する能力を必要としている。
実際、ある思考決定タスクで結論を推論した後、人々は間違いを避けるためのステップを再検証することでそれらをチェックします。
本稿では,LLMにも類似した自己検証能力があることを示す。
本稿では,CoTによる結論を,元の問題を解決する条件の一つとみなす。
LLMが自ら推論した回答の後方検証を行うことで、解釈可能な回答検証スコアを取得し、最も高いスコアで候補回答を選択することができる。
実験の結果,提案手法は様々な算術,コモンセンス,論理推論データセットの推論性能を向上させることができることがわかった。
私たちのコードは、https://github.com/WENGSYX/Self-Verificationで公開されています。
関連論文リスト
- A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - CLadder: Assessing Causal Reasoning in Language Models [82.8719238178569]
我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。
ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
論文 参考訳(メタデータ) (2023-12-07T15:12:12Z) - Zero-Shot Question Answering over Financial Documents using Large
Language Models [0.18749305679160366]
我々は,財務報告に対するマルチホップ数値推論を必要とする複雑な問題に答えるために,大規模言語モデル(LLM)に基づくアプローチを導入する。
LLMを誘導する新しいゼロショットプロンプトを使用して、必要な推論をPythonプログラムやドメイン固有言語にエンコードします。
論文 参考訳(メタデータ) (2023-11-19T16:23:34Z) - SELF-EXPLAIN: Teaching Large Language Models to Reason Complex Questions
by Themselves [9.68886683868545]
本研究では,大規模言語モデル(LLM)が人為的な実演を伴わずに理性を教えることができるかどうかを考察する。
人間の記憶検索における「符号化特異性」にインスパイアされたLLMを用いて,SELF-EXPLAINを用いてCoTのサンプルを生成する。
自己説明を用いることで、LLMはより自信を持ち、より校正され、複雑な質問に答えるときにバイアスが少なくなる。
論文 参考訳(メタデータ) (2023-11-12T23:14:43Z) - Forward-Backward Reasoning in Large Language Models for Mathematical
Verification [69.25666654865826]
自己整合性(Self-Consistency)は、さまざまな推論チェーンの回答をサンプリングし、多数決によって最終回答を選択する。
候補解の検証に後方推論を導入する。
検証のための FOrward と BAckward Reasoning は最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-15T13:19:59Z) - SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step
Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。
我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文 参考訳(メタデータ) (2023-08-01T10:31:36Z) - Multimodal Chain-of-Thought Reasoning in Language Models [80.902171201496]
大規模言語モデル(LLM)は、チェーン・オブ・ソート(CoT)を利用して複雑な推論において印象的な性能を示した。
本稿では,視覚機能を分離したトレーニングフレームワークに組み込んだマルチモーダルCoTを提案する。
Multimodal-CoTでは、ScienceQAベンチマークで10億のパラメータ未満のモデルで、従来の最先端のLCM(GPT-3.5)を16%(75.17%->91.68%)上回るパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。