論文の概要: Large Language Models are reasoners with Self-Verification
- arxiv url: http://arxiv.org/abs/2212.09561v1
- Date: Mon, 19 Dec 2022 15:51:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 14:52:11.567842
- Title: Large Language Models are reasoners with Self-Verification
- Title(参考訳): 大規模言語モデルは自己検証の根拠である
- Authors: Yixuan Weng, Minjun Zhu, Shizhu He, Kang Liu, Jun Zhao
- Abstract要約: 自己検証と呼ばれる新しい手法を提案する。
新しいサンプルを作る条件として、思考の連鎖の結論を用いる。
精度に基づいて説明可能な検証スコアを算出する。
- 参考スコア(独自算出の注目度): 15.837457557803507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When a large language model (LLM) performs complex reasoning by chain of
thought (CoT), it can be highly sensitive to individual mistakes. We have had
to train verifiers to address this issue. As we all know, after human inferring
a conclusion, they often check it by re-verifying it, which can avoid some
mistakes. We propose a new method called self-verification that uses the
conclusion of the CoT as a condition to build a new sample and asks the LLM to
re-predict the original conditions which be masked. We calculate an explainable
verification score based on the accuracy. This method can improve the accuracy
of multiple arithmetics and logical reasoning datasets when using few-shot
learning. we have demonstrated that LLMs can conduct explainable
self-verification of their own conclusions and achieve competitive reasoning
performance. Extensive experimentals have demonstrated that our method can help
multiple large language models with self-verification can avoid interference
from incorrect CoT. Code is available at
\url{https://github.com/WENGSYX/Self-Verification}
- Abstract(参考訳): 大きな言語モデル(LLM)が思考の連鎖(CoT)によって複雑な推論を行う場合、個々のミスに対して非常に敏感である。
私たちはこの問題に対処するために検証者を訓練しなければならなかった。
誰もが知っているように、人間が結論を推測した後、しばしばそれを再検証してチェックします。
我々は,CoTの結論を新しいサンプル構築条件として用いた自己検証法を提案し,LLMにマスクされた元の条件の再予測を依頼する。
精度に基づいて説明可能な検証スコアを算出する。
本手法は,数ショット学習における複数の算術と論理推論データセットの精度を向上させることができる。
我々は, LLM が自身の結論を自己検証し, 競争力のある推論性能を発揮できることを実証した。
大規模な実験により, 自己検証を行う複数の大規模言語モデルにおいて, 誤ったCoTの干渉を回避できることが実証された。
コードは \url{https://github.com/wengsyx/self-verification} で入手できる。
関連論文リスト
- A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - CLadder: Assessing Causal Reasoning in Language Models [82.8719238178569]
我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。
ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
論文 参考訳(メタデータ) (2023-12-07T15:12:12Z) - Zero-Shot Question Answering over Financial Documents using Large
Language Models [0.18749305679160366]
我々は,財務報告に対するマルチホップ数値推論を必要とする複雑な問題に答えるために,大規模言語モデル(LLM)に基づくアプローチを導入する。
LLMを誘導する新しいゼロショットプロンプトを使用して、必要な推論をPythonプログラムやドメイン固有言語にエンコードします。
論文 参考訳(メタデータ) (2023-11-19T16:23:34Z) - SELF-EXPLAIN: Teaching Large Language Models to Reason Complex Questions
by Themselves [9.68886683868545]
本研究では,大規模言語モデル(LLM)が人為的な実演を伴わずに理性を教えることができるかどうかを考察する。
人間の記憶検索における「符号化特異性」にインスパイアされたLLMを用いて,SELF-EXPLAINを用いてCoTのサンプルを生成する。
自己説明を用いることで、LLMはより自信を持ち、より校正され、複雑な質問に答えるときにバイアスが少なくなる。
論文 参考訳(メタデータ) (2023-11-12T23:14:43Z) - Forward-Backward Reasoning in Large Language Models for Mathematical
Verification [69.25666654865826]
自己整合性(Self-Consistency)は、さまざまな推論チェーンの回答をサンプリングし、多数決によって最終回答を選択する。
候補解の検証に後方推論を導入する。
検証のための FOrward と BAckward Reasoning は最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-15T13:19:59Z) - SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step
Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。
我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文 参考訳(メタデータ) (2023-08-01T10:31:36Z) - Multimodal Chain-of-Thought Reasoning in Language Models [80.902171201496]
大規模言語モデル(LLM)は、チェーン・オブ・ソート(CoT)を利用して複雑な推論において印象的な性能を示した。
本稿では,視覚機能を分離したトレーニングフレームワークに組み込んだマルチモーダルCoTを提案する。
Multimodal-CoTでは、ScienceQAベンチマークで10億のパラメータ未満のモデルで、従来の最先端のLCM(GPT-3.5)を16%(75.17%->91.68%)上回るパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。