論文の概要: LLMs cannot find reasoning errors, but can correct them!
- arxiv url: http://arxiv.org/abs/2311.08516v1
- Date: Tue, 14 Nov 2023 20:12:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 18:31:34.845703
- Title: LLMs cannot find reasoning errors, but can correct them!
- Title(参考訳): LLMは推論エラーを見つけることはできないが、修正できる!
- Authors: Gladys Tyen, Hassan Mansoor, Peter Chen, Tony Mak, Victor C\u{a}rbune
- Abstract要約: 自己補正プロセスを2つのコアコンポーネントに分割する。
BIG-Bench MistakeはChain-of-Thought推論トレースにおける論理的誤りのデータセットである。
出力補正のためのバックトラック手法を提案する。
- 参考スコア(独自算出の注目度): 0.9674641730446749
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While self-correction has shown promise in improving LLM outputs in terms of
style and quality (e.g. Chen et al., 2023; Madaan et al., 2023), recent
attempts to self-correct logical or reasoning errors often cause correct
answers to become incorrect, resulting in worse performances overall (Huang et
al., 2023). In this paper, we break down the self-correction process into two
core components: mistake finding and output correction. For mistake finding, we
release BIG-Bench Mistake, a dataset of logical mistakes in Chain-of-Thought
reasoning traces. We provide benchmark numbers for several state-of-the-art
LLMs, and demonstrate that LLMs generally struggle with finding logical
mistakes. For output correction, we propose a backtracking method which
provides large improvements when given information on mistake location. We
construe backtracking as a lightweight alternative to reinforcement learning
methods, and show that it remains effective with a reward model at 60-70%
accuracy.
- Abstract(参考訳): 自己修正は、スタイルや品質の観点からllmアウトプットを改善する(例えば、chen et al., 2023; madaan et al., 2023)ことが期待されているが、近年の自己修正や推論の誤りは、しばしば正しい答えを誤ったものにし、全体的なパフォーマンスを悪化させる(huang et al., 2023)。
本稿では,自己補正過程を,誤検出と出力補正の2つのコアコンポーネントに分解する。
BIG-Bench MistakeはChain-of-Thought推論トレースにおける論理的誤りのデータセットである。
我々は、いくつかの最先端LLMのベンチマーク値を提供し、LLMが論理的誤りを見つけるのに一般的に苦労していることを示す。
出力補正のために,誤り位置に関する情報を与えられた場合に大きな改善を提供するバックトラッキング手法を提案する。
バックトラックは強化学習法に代わる軽量な代替手段であり,60~70%の精度で報酬モデルで有効であることを示す。
関連論文リスト
- SpecTool: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
SpecToolは、ツール使用タスクのLLM出力のエラーパターンを特定するための新しいベンチマークである。
もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。
SPECTOOLの分析と洞察を使って、エラー軽減戦略をガイドすることができる。
論文 参考訳(メタデータ) (2024-11-20T18:56:22Z) - LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations [46.351064535592336]
大規模言語モデル(LLM)は、事実の不正確さやバイアス、推論失敗など、しばしばエラーを発生させる。
近年の研究では、LLMの内部状態が出力の真偽に関する情報を符号化していることが示されている。
LLMの内部表現は、これまで認識されていた以上の真理性に関する情報を符号化している。
論文 参考訳(メタデータ) (2024-10-03T17:31:31Z) - Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z) - Evaluating LLMs at Detecting Errors in LLM Responses [30.645694514606507]
この研究は、LLMによる客観的、現実的で多様なエラーからなる最初のエラー検出ベンチマークであるReaLMistakeを紹介した。
我々はReaLMistakeを用いて12の大規模言語モデルに基づいて誤り検出を行う。
論文 参考訳(メタデータ) (2024-04-04T17:19:47Z) - Can LLMs Learn from Previous Mistakes? Investigating LLMs' Errors to Boost for Reasoning [34.34977150518316]
textscCoTErrorSetは609,432の質問を持つ新しいベンチマークで、それぞれが正しい参照とエラー参照の両方で設計されている。
textbfSelf-rethinking guideing LLMsは、彼らが同じような間違いを犯したかどうかを再考するよう促している。
textbfMistakeチューニングは、正しい推論ドメインと間違った推論ドメインの両方でモデルを微調整する。
論文 参考訳(メタデータ) (2024-03-29T08:30:34Z) - Learning to Check: Unleashing Potentials for Self-Correction in Large Language Models [5.463333911506443]
我々は,タスクチェックのためのトレーニングデータを構築することで,大規模言語モデル(LLM)の自己チェック能力を向上させることを目指している。
ステップCoTチェック(Step CoT Check)と呼ばれる特殊なチェックフォーマットを提案する。
実験により、"Step CoT Check"フォーマットによる微調整により、LCMの自己チェックと自己補正能力が大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-02-20T14:23:23Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文 参考訳(メタデータ) (2023-10-31T17:52:22Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step
Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。
我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文 参考訳(メタデータ) (2023-08-01T10:31:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。