論文の概要: Large Language Models are reasoners with Self-Verification
- arxiv url: http://arxiv.org/abs/2212.09561v1
- Date: Mon, 19 Dec 2022 15:51:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 14:52:11.567842
- Title: Large Language Models are reasoners with Self-Verification
- Title(参考訳): 大規模言語モデルは自己検証の根拠である
- Authors: Yixuan Weng, Minjun Zhu, Shizhu He, Kang Liu, Jun Zhao
- Abstract要約: 自己検証と呼ばれる新しい手法を提案する。
新しいサンプルを作る条件として、思考の連鎖の結論を用いる。
精度に基づいて説明可能な検証スコアを算出する。
- 参考スコア(独自算出の注目度): 15.837457557803507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When a large language model (LLM) performs complex reasoning by chain of
thought (CoT), it can be highly sensitive to individual mistakes. We have had
to train verifiers to address this issue. As we all know, after human inferring
a conclusion, they often check it by re-verifying it, which can avoid some
mistakes. We propose a new method called self-verification that uses the
conclusion of the CoT as a condition to build a new sample and asks the LLM to
re-predict the original conditions which be masked. We calculate an explainable
verification score based on the accuracy. This method can improve the accuracy
of multiple arithmetics and logical reasoning datasets when using few-shot
learning. we have demonstrated that LLMs can conduct explainable
self-verification of their own conclusions and achieve competitive reasoning
performance. Extensive experimentals have demonstrated that our method can help
multiple large language models with self-verification can avoid interference
from incorrect CoT. Code is available at
\url{https://github.com/WENGSYX/Self-Verification}
- Abstract(参考訳): 大きな言語モデル(LLM)が思考の連鎖(CoT)によって複雑な推論を行う場合、個々のミスに対して非常に敏感である。
私たちはこの問題に対処するために検証者を訓練しなければならなかった。
誰もが知っているように、人間が結論を推測した後、しばしばそれを再検証してチェックします。
我々は,CoTの結論を新しいサンプル構築条件として用いた自己検証法を提案し,LLMにマスクされた元の条件の再予測を依頼する。
精度に基づいて説明可能な検証スコアを算出する。
本手法は,数ショット学習における複数の算術と論理推論データセットの精度を向上させることができる。
我々は, LLM が自身の結論を自己検証し, 競争力のある推論性能を発揮できることを実証した。
大規模な実験により, 自己検証を行う複数の大規模言語モデルにおいて, 誤ったCoTの干渉を回避できることが実証された。
コードは \url{https://github.com/wengsyx/self-verification} で入手できる。
関連論文リスト
- Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models [0.0]
大規模言語モデル(LLM)は、その誕生以来、様々な学術分野や産業分野にまたがって大きな注目を集めてきた。
LLMはしばしば「ハロシン化問題」に悩まされるが、出力は文法的にも論理的にも一貫性があり、事実の正確性に欠ける。
論文 参考訳(メタデータ) (2024-08-09T14:34:32Z) - Large Language Models Can Self-Correct with Key Condition Verification [39.67266805233599]
単純で効果的な検証手法は,大規模言語モデルの本質的な能力を解き放つことができる。
本稿では, 誤応答を段階的に識別し, 訂正する反復的検証列補正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T01:43:45Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - CLadder: Assessing Causal Reasoning in Language Models [82.8719238178569]
我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。
ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
論文 参考訳(メタデータ) (2023-12-07T15:12:12Z) - Zero-Shot Question Answering over Financial Documents using Large
Language Models [0.18749305679160366]
我々は,財務報告に対するマルチホップ数値推論を必要とする複雑な問題に答えるために,大規模言語モデル(LLM)に基づくアプローチを導入する。
LLMを誘導する新しいゼロショットプロンプトを使用して、必要な推論をPythonプログラムやドメイン固有言語にエンコードします。
論文 参考訳(メタデータ) (2023-11-19T16:23:34Z) - Forward-Backward Reasoning in Large Language Models for Mathematical Verification [65.9495774606273]
自己整合性(Self-Consistency)は、さまざまな推論チェーンの回答をサンプリングし、多数決によって最終回答を選択する。
候補解の検証に後方推論を導入する。
検証のための FOrward と BAckward Reasoning は最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-15T13:19:59Z) - SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step
Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。
我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文 参考訳(メタデータ) (2023-08-01T10:31:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。