論文の概要: Learning to Check: Unleashing Potentials for Self-Correction in Large
Language Models
- arxiv url: http://arxiv.org/abs/2402.13035v2
- Date: Fri, 23 Feb 2024 01:51:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 17:11:27.072954
- Title: Learning to Check: Unleashing Potentials for Self-Correction in Large
Language Models
- Title(参考訳): チェックの学習:大規模言語モデルにおける自己補正の可能性
- Authors: Che Zhang and Zhenyang Xiao and Chengcheng Han and Yixin Lian and
Yuejian Fang
- Abstract要約: 大規模言語モデル(LLM)は推論能力において大きな進歩を遂げた。
近年の研究では、自己補正は限定的であるか、あるいは反生産的であることが示唆されている。
我々は,LLMの自己検査能力を向上させることを目的として,訓練データを慎重に設計する。
- 参考スコア(独自算出の注目度): 5.861315682930851
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have made significant strides in reasoning
capabilities, with ongoing efforts to refine their reasoning through
self-correction. However, recent studies suggest that self-correction can be
limited or even counterproductive without external accurate knowledge, raising
questions about the limits and effectiveness of self-correction. In this paper,
we aim to enhance LLM's self-checking capabilities by meticulously designing
training data, thereby improving the accuracy of self-correction. We conduct a
detailed analysis of error types in mathematical reasoning and develop a
tailored prompt, termed "Step CoT Check". Then we construct a
checking-correction dataset for training models. After integrating the original
CoT data and checking-correction data for training, we observe that models
could improve their self-checking capabilities, thereby enhancing their
self-correction capacity and eliminating the need for external feedback or
ground truth labels to ascertain the endpoint of correction. We compare the
performance of models fine-tuned with the "Step CoT Check" prompt against those
refined using other promps within the context of checking-correction data. The
"Step CoT Check" outperforms the other two check formats in model with lager
parameters, providing more precise feedback thus achieving a higher rate of
correctness. For reproducibility, all the datasets and codes are provided in
https://github.com/bammt/Learn-to-check.
- Abstract(参考訳): 大規模言語モデル(llm)は推論能力を大幅に進歩させ、自己修正を通じて推論を洗練する努力を続けている。
しかし、近年の研究では、自己修正は外部の正確な知識がなければ限定的、あるいは非生産的であり、自己修正の限界と有効性に関する疑問を提起している。
本稿では,LLMの自己検査能力を向上させるために,訓練データを慎重に設計し,自己補正の精度を向上させることを目的とする。
数学的推論におけるエラータイプを詳細に分析し,「ステップコットチェック」と呼ばれる自動プロンプトを開発した。
次に,学習モデルのためのチェック補正データセットを構築する。
学習のためのcotデータとチェック補正データを統合することで,モデルの自己チェック能力が向上し,自己修正能力が向上し,修正のエンドポイントを確認するための外部フィードバックや事実ラベルの不要化が期待できる。
チェック補正データのコンテキスト内の他のプロンプを用いて、微調整されたモデルのパフォーマンスと「ステップコットチェック」プロンプトを比較した。
ステップCoTチェック」は、モデル内の他の2つのチェックフォーマットを遅延パラメータで上回り、より正確なフィードバックを提供し、より高い正確性を達成する。
再現性のために、すべてのデータセットとコードはhttps://github.com/bammt/learn-to-checkで提供される。
関連論文リスト
- Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
本研究は,より小さい (= 13B) 言語モデル (LM) が,より強い LM から最小限の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z) - Calibrating Long-form Generations from Large Language Models [37.2496541665881]
大きな言語モデル(LLM)の信頼性スコアは、その応答が正しいという実際の可能性と一致すべきである。
現在の信頼性評価手法とキャリブレーション基準は、応答の正しさを2値の真/偽評価に頼っている。
本稿では,LLMの応答の正しさと関連する信頼度の両方を,様々なスコアの分布として扱う統一校正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-09T17:00:32Z) - Parameter-tuning-free data entry error unlearning with adaptive
selective synaptic dampening [51.34904967046097]
本稿では,パラメータチューニングの必要性を排除した選択的シナプス減衰アンラーニング法の拡張を提案する。
本稿では,ResNet18とVision Transformerの未学習タスクにおける適応選択的シナプス減衰(ASSD)の性能を示す。
このアプローチの適用は、サプライチェーン管理などの産業環境において特に魅力的である。
論文 参考訳(メタデータ) (2024-02-06T14:04:31Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Entailment as Robust Self-Learner [14.86757876218415]
我々は、複数の異なるNLUタスクを文脈的エンターテイメントとして定式化するプロンプト戦略を設計する。
自己学習における擬似ラベル品質向上のための簡易擬似ラベル編集(SimPLE)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:41:23Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - NLI Data Sanity Check: Assessing the Effect of Data Corruption on Model
Performance [3.7024660695776066]
データセットがモデルの意味理解能力を評価するための良いテストベッドを構成するかどうかを評価することができる新しい診断テストスイートを提案します。
特に,広く使用されているベンチマーク(mnliおよびanli)に制御された腐敗変換を適用する。
モデル精度の大幅な低下は、元のデータセットがモデルの推論能力に適切な挑戦を提供することを示している。
論文 参考訳(メタデータ) (2021-04-10T12:28:07Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。