論文の概要: Learning to Check: Unleashing Potentials for Self-Correction in Large
Language Models
- arxiv url: http://arxiv.org/abs/2402.13035v2
- Date: Fri, 23 Feb 2024 01:51:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 17:11:27.072954
- Title: Learning to Check: Unleashing Potentials for Self-Correction in Large
Language Models
- Title(参考訳): チェックの学習:大規模言語モデルにおける自己補正の可能性
- Authors: Che Zhang and Zhenyang Xiao and Chengcheng Han and Yixin Lian and
Yuejian Fang
- Abstract要約: 大規模言語モデル(LLM)は推論能力において大きな進歩を遂げた。
近年の研究では、自己補正は限定的であるか、あるいは反生産的であることが示唆されている。
我々は,LLMの自己検査能力を向上させることを目的として,訓練データを慎重に設計する。
- 参考スコア(独自算出の注目度): 5.861315682930851
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have made significant strides in reasoning
capabilities, with ongoing efforts to refine their reasoning through
self-correction. However, recent studies suggest that self-correction can be
limited or even counterproductive without external accurate knowledge, raising
questions about the limits and effectiveness of self-correction. In this paper,
we aim to enhance LLM's self-checking capabilities by meticulously designing
training data, thereby improving the accuracy of self-correction. We conduct a
detailed analysis of error types in mathematical reasoning and develop a
tailored prompt, termed "Step CoT Check". Then we construct a
checking-correction dataset for training models. After integrating the original
CoT data and checking-correction data for training, we observe that models
could improve their self-checking capabilities, thereby enhancing their
self-correction capacity and eliminating the need for external feedback or
ground truth labels to ascertain the endpoint of correction. We compare the
performance of models fine-tuned with the "Step CoT Check" prompt against those
refined using other promps within the context of checking-correction data. The
"Step CoT Check" outperforms the other two check formats in model with lager
parameters, providing more precise feedback thus achieving a higher rate of
correctness. For reproducibility, all the datasets and codes are provided in
https://github.com/bammt/Learn-to-check.
- Abstract(参考訳): 大規模言語モデル(llm)は推論能力を大幅に進歩させ、自己修正を通じて推論を洗練する努力を続けている。
しかし、近年の研究では、自己修正は外部の正確な知識がなければ限定的、あるいは非生産的であり、自己修正の限界と有効性に関する疑問を提起している。
本稿では,LLMの自己検査能力を向上させるために,訓練データを慎重に設計し,自己補正の精度を向上させることを目的とする。
数学的推論におけるエラータイプを詳細に分析し,「ステップコットチェック」と呼ばれる自動プロンプトを開発した。
次に,学習モデルのためのチェック補正データセットを構築する。
学習のためのcotデータとチェック補正データを統合することで,モデルの自己チェック能力が向上し,自己修正能力が向上し,修正のエンドポイントを確認するための外部フィードバックや事実ラベルの不要化が期待できる。
チェック補正データのコンテキスト内の他のプロンプを用いて、微調整されたモデルのパフォーマンスと「ステップコットチェック」プロンプトを比較した。
ステップCoTチェック」は、モデル内の他の2つのチェックフォーマットを遅延パラメータで上回り、より正確なフィードバックを提供し、より高い正確性を達成する。
再現性のために、すべてのデータセットとコードはhttps://github.com/bammt/learn-to-checkで提供される。
関連論文リスト
- Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - S$^3$c-Math: Spontaneous Step-level Self-correction Makes Large Language Models Better Mathematical Reasoners [23.713779973116733]
自己補正は,大規模言語モデル(LLM)の潜在的な推論能力を刺激する手法である
本稿では,S$3$c-Mathを提案する。
論文 参考訳(メタデータ) (2024-09-03T01:40:21Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z) - LLMs cannot find reasoning errors, but can correct them given the error location [0.9017736137562115]
低い自己補正性能は、LLMが既知の誤りを訂正する能力ではなく、論理的な誤りを見つけることができないことに起因する。
我々は,そのミスフィリング能力について,最先端のLLMのいくつかをベンチマークし,そのタスクに一般的に苦労していることを示す。
そこで本研究では,地平線ラベルやドメイン内トレーニングデータを使わずに,誤った位置情報を得られることを示す。
論文 参考訳(メタデータ) (2023-11-14T20:12:38Z) - Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文 参考訳(メタデータ) (2023-10-31T17:52:22Z) - SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step
Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。
我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文 参考訳(メタデータ) (2023-08-01T10:31:36Z) - Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。
このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T01:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。