論文の概要: SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step
Reasoning
- arxiv url: http://arxiv.org/abs/2308.00436v2
- Date: Wed, 2 Aug 2023 08:45:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 10:14:22.791970
- Title: SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step
Reasoning
- Title(参考訳): SelfCheck:LDMを使って独自のステップバイステップ推論をゼロショットする
- Authors: Ning Miao, Yee Whye Teh, Tom Rainforth
- Abstract要約: 大規模言語モデル (LLM) が, 誤りを認識できるかどうかを検討する。
このような誤りを認識するため,ゼロショット検証方式を提案する。
次に,この検証手法を用いて質問応答性能を向上する。
- 参考スコア(独自算出の注目度): 67.23040990929717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent progress in large language models (LLMs), especially the invention
of chain-of-thoughts (CoT) prompting, makes it possible to solve reasoning
problems. However, even the strongest LLMs are still struggling with more
complicated problems that require non-linear thinking and multi-step reasoning.
In this work, we explore whether LLMs have the ability to recognize their own
errors, without resorting to external resources. In particular, we investigate
whether they can be used to identify individual errors within a step-by-step
reasoning. To this end, we propose a zero-shot verification scheme to recognize
such errors. We then use this verification scheme to improve question-answering
performance, by using it to perform weighted voting on different generated
answers. We test the method on three math datasets-GSM8K, MathQA, and MATH-and
find that it successfully recognizes errors and, in turn, increases final
predictive performance.
- Abstract(参考訳): 大規模言語モデル(llms)の最近の進歩、特にcot(chain-of-thoughts)の発明により、推論問題を解決できるようになった。
しかし、最強のLLMでさえ、非線形思考と多段階推論を必要とするより複雑な問題に苦戦している。
本研究では,LLMが外部資源に頼らずに,自己の誤りを認識できるかどうかを考察する。
特に,ステップバイステップの推論において,個々のエラーを識別するために使用できるかどうかについて検討する。
そこで本研究では,このような誤りを識別するゼロショット検証手法を提案する。
次に,この検証手法を用いて質問応答の重み付き投票を行うことにより,質問応答性能を向上させる。
本手法は,GSM8K,MathQA,MATHの3つの数学データセット上で検証し,誤差の認識に成功し,最終的な予測性能を向上させる。
関連論文リスト
- Evaluating LLMs at Detecting Errors in LLM Responses [30.645694514606507]
この研究は、LLMによる客観的、現実的で多様なエラーからなる最初のエラー検出ベンチマークであるReaLMistakeを紹介した。
我々はReaLMistakeを用いて12の大規模言語モデルに基づいて誤り検出を行う。
論文 参考訳(メタデータ) (2024-04-04T17:19:47Z) - Learning to Check: Unleashing Potentials for Self-Correction in Large Language Models [5.463333911506443]
我々は,タスクチェックのためのトレーニングデータを構築することで,大規模言語モデル(LLM)の自己チェック能力を向上させることを目指している。
ステップCoTチェック(Step CoT Check)と呼ばれる特殊なチェックフォーマットを提案する。
実験により、"Step CoT Check"フォーマットによる微調整により、LCMの自己チェックと自己補正能力が大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-02-20T14:23:23Z) - V-STaR: Training Verifiers for Self-Taught Reasoners [71.53113558733227]
V-STaR はモデル生成解の正しさを判断する DPO を用いて検証器を訓練する。
複数のイテレーションでV-STaRを実行すると、徐々により良い推論器と検証器が得られる。
論文 参考訳(メタデータ) (2024-02-09T15:02:56Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - LLMs cannot find reasoning errors, but can correct them given the error location [0.9017736137562115]
低い自己補正性能は、LLMが既知の誤りを訂正する能力ではなく、論理的な誤りを見つけることができないことに起因する。
我々は,そのミスフィリング能力について,最先端のLLMのいくつかをベンチマークし,そのタスクに一般的に苦労していることを示す。
そこで本研究では,地平線ラベルやドメイン内トレーニングデータを使わずに,誤った位置情報を得られることを示す。
論文 参考訳(メタデータ) (2023-11-14T20:12:38Z) - Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文 参考訳(メタデータ) (2023-10-31T17:52:22Z) - Knowledge-Augmented Language Model Verification [68.6099592486075]
最近の言語モデル(LM)は、パラメータに内在化された知識を持つテキストを生成する際、印象的な能力を示している。
本稿では,知識付加型LMの出力と知識を別個の検証器で検証することを提案する。
その結果,提案した検証器は,検索と生成の誤りを効果的に識別し,LMがより現実的に正しい出力を提供できることを示した。
論文 参考訳(メタデータ) (2023-10-19T15:40:00Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。