論文の概要: LLMs cannot find reasoning errors, but can correct them!
- arxiv url: http://arxiv.org/abs/2311.08516v2
- Date: Tue, 9 Jan 2024 03:32:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 19:31:13.999377
- Title: LLMs cannot find reasoning errors, but can correct them!
- Title(参考訳): LLMは推論エラーを見つけることはできないが、修正できる!
- Authors: Gladys Tyen, Hassan Mansoor, Victor C\u{a}rbune, Peter Chen, Tony Mak
- Abstract要約: 自己補正プロセスを2つのコアコンポーネントに分割する。
BIG-Bench MistakeはChain-of-Thought推論トレースにおける論理的誤りのデータセットである。
出力補正のためのバックトラック手法を提案する。
- 参考スコア(独自算出の注目度): 0.9674641730446749
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While self-correction has shown promise in improving LLM outputs in terms of
style and quality (e.g. Chen et al., 2023; Madaan et al., 2023), recent
attempts to self-correct logical or reasoning errors often cause correct
answers to become incorrect, resulting in worse performances overall (Huang et
al., 2023). In this paper, we break down the self-correction process into two
core components: mistake finding and output correction. For mistake finding, we
release BIG-Bench Mistake, a dataset of logical mistakes in Chain-of-Thought
reasoning traces. We provide benchmark numbers for several state-of-the-art
LLMs, and demonstrate that LLMs generally struggle with finding logical
mistakes. For output correction, we propose a backtracking method which
provides large improvements when given information on mistake location. We
construe backtracking as a lightweight alternative to reinforcement learning
methods, and show that it remains effective with a reward model at 60-70%
accuracy.
- Abstract(参考訳): 自己修正は、スタイルや品質の観点からllmアウトプットを改善する(例えば、chen et al., 2023; madaan et al., 2023)ことが期待されているが、近年の自己修正や推論の誤りは、しばしば正しい答えを誤ったものにし、全体的なパフォーマンスを悪化させる(huang et al., 2023)。
本稿では,自己補正過程を,誤検出と出力補正の2つのコアコンポーネントに分解する。
BIG-Bench MistakeはChain-of-Thought推論トレースにおける論理的誤りのデータセットである。
我々は、いくつかの最先端LLMのベンチマーク値を提供し、LLMが論理的誤りを見つけるのに一般的に苦労していることを示す。
出力補正のために,誤り位置に関する情報を与えられた場合に大きな改善を提供するバックトラッキング手法を提案する。
バックトラックは強化学習法に代わる軽量な代替手段であり,60~70%の精度で報酬モデルで有効であることを示す。
関連論文リスト
- Can LLMs Learn from Previous Mistakes? Investigating LLMs' Errors to Boost for Reasoning [34.34977150518316]
textscCoTErrorSetは609,432の質問を持つ新しいベンチマークで、それぞれが正しい参照とエラー参照の両方で設計されている。
textbfSelf-rethinking guideing LLMsは、彼らが同じような間違いを犯したかどうかを再考するよう促している。
textbfMistakeチューニングは、正しい推論ドメインと間違った推論ドメインの両方でモデルを微調整する。
論文 参考訳(メタデータ) (2024-03-29T08:30:34Z) - Improving LLM-based Machine Translation with Systematic Self-Correction [27.679218053257685]
大規模言語モデル(LLM)は機械翻訳(MT)において印象的な結果を得た
しかし、人間による慎重な評価は、LLMが生成した翻訳には、まだ複数の誤りが含まれていることを明らかにしている。
これらの知見に触発され,系統的なLLMに基づく自己修正翻訳フレームワークであるTERを導入する。
論文 参考訳(メタデータ) (2024-02-26T07:58:12Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文 参考訳(メタデータ) (2023-10-31T17:52:22Z) - SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step
Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。
我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文 参考訳(メタデータ) (2023-08-01T10:31:36Z) - GRACE: Discriminator-Guided Chain-of-Thought Reasoning [75.35436025709049]
本稿では, 正しい推論手順を導出するために, GRACE (CorrectnEss Discriminator) を用いたチェーン・オブ・シークレット・リAsoningを提案する。
GRACEは、正しいステップと間違ったステップに対して対照的な損失で訓練された判別器を採用しており、復号時に次のステップ候補を採点するために使用される。
論文 参考訳(メタデータ) (2023-05-24T09:16:51Z) - RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by
Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。
RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。
手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-19T08:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。