論文の概要: SuperCorrect: Supervising and Correcting Language Models with Error-Driven Insights
- arxiv url: http://arxiv.org/abs/2410.09008v2
- Date: Wed, 05 Feb 2025 13:47:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 18:00:50.044629
- Title: SuperCorrect: Supervising and Correcting Language Models with Error-Driven Insights
- Title(参考訳): SuperCorrect: エラー駆動インサイトによる言語モデルの監視と修正
- Authors: Ling Yang, Zhaochen Yu, Tianjun Zhang, Minkai Xu, Joseph E. Gonzalez, Bin Cui, Shuicheng Yan,
- Abstract要約: より小規模な学生モデルの推論と反映の両方を教師モデルを用いて監督し,修正するフレームワークであるSuperCorrectを提案する。
第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。
第2段階では、学生モデルの自己補正能力を高めるために、クロスモデル協調直接選好最適化(DPO)を導入する。
- 参考スコア(独自算出の注目度): 89.56181323849512
- License:
- Abstract: Large language models (LLMs) like GPT-4, PaLM, and LLaMA have shown significant improvements in various reasoning tasks. However, smaller models such as Llama-3-8B and DeepSeekMath-Base still struggle with complex mathematical reasoning because they fail to effectively identify and correct reasoning errors. Recent reflection-based methods aim to address these issues by enabling self-reflection and self-correction, but they still face challenges in independently detecting errors in their reasoning steps. To overcome these limitations, we propose SuperCorrect, a novel two-stage framework that uses a large teacher model to supervise and correct both the reasoning and reflection processes of a smaller student model. In the first stage, we extract hierarchical high-level and detailed thought templates from the teacher model to guide the student model in eliciting more fine-grained reasoning thoughts. In the second stage, we introduce cross-model collaborative direct preference optimization (DPO) to enhance the self-correction abilities of the student model by following the teacher's correction traces during training. This cross-model DPO approach teaches the student model to effectively locate and resolve erroneous thoughts with error-driven insights from the teacher model, breaking the bottleneck of its thoughts and acquiring new skills and knowledge to tackle challenging problems. Extensive experiments consistently demonstrate our superiority over previous methods. Notably, our SuperCorrect-7B model significantly surpasses powerful DeepSeekMath-7B by 7.8%/5.3% and Qwen2.5-Math-7B by 15.1%/6.3% on MATH/GSM8K benchmarks, achieving new SOTA performance among all 7B models. Code: https://github.com/YangLing0818/SuperCorrect-llm
- Abstract(参考訳): GPT-4、PaLM、LLaMAのような大規模言語モデル(LLM)は、様々な推論タスクにおいて大幅に改善されている。
しかし、Llama-3-8BやDeepSeekMath-Baseのような小さなモデルは、推論エラーを効果的に識別し修正できないため、複雑な数学的推論に苦慮している。
最近のリフレクションベースの手法は、自己回帰と自己補正を可能にすることでこれらの問題に対処することを目的としているが、彼らは推論ステップにおけるエラーを独立に検出する際の課題に直面している。
これらの制約を克服するために,より小さな学生モデルの推論と反映の両方を教師モデルを用いて監督し,修正する新しい2段階フレームワークであるSuperCorrectを提案する。
第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。
第2段階では,教師の学習中の補正トレースを追従することにより,学生モデルの自己補正能力を高めるために,クロスモデル協調直接選好最適化(DPO)を導入する。
このクロスモデルDPOアプローチは、学生モデルに対して、教師モデルからの誤り駆動的な洞察による誤った思考を効果的に見つけ、解決し、その思考のボトルネックを破り、挑戦する問題に取り組むために新しいスキルと知識を得るように教える。
大規模な実験は、従来の方法よりも、我々の優位性を一貫して示している。
特に、我々のSuperCorrect-7Bモデルは、強力なDeepSeekMath-7Bの7.8%/5.3%、Qwen2.5-Math-7Bの15.1%/6.3%をMATH/GSM8Kベンチマークで上回り、全ての7BモデルでSOTA性能が向上した。
コード:https://github.com/YangLing0818/SuperCorrect-llm
関連論文リスト
- S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - LLaMa-SciQ: An Educational Chatbot for Answering Science MCQ [0.0]
大規模言語モデル(LLM)は、数学的な推論を必要とするタスク、特に多重選択質問(MCQ)にしばしば苦労する。
我々は,STEM分野におけるMCQの解決と理解を支援するLLaMa-SciQを開発した。
数学的推論では、LLaMa-SciQはGSM8kデータセットで74.5%、MATHデータセットで30%の精度を達成した。
論文 参考訳(メタデータ) (2024-09-25T09:41:46Z) - Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors [78.53699244846285]
大規模言語モデル(LLM)は、高品質なパーソナライズされた教育を全員に拡大する機会を提供する。
LLMは、学生のエラーを正確に検知し、これらのエラーに対するフィードバックを調整するのに苦労する。
教師が学生の誤りを識別し、それに基づいて回答をカスタマイズする現実世界の教育実践に触発され、我々は学生ソリューションの検証に焦点をあてる。
論文 参考訳(メタデータ) (2024-07-12T10:11:40Z) - LLMs-as-Instructors: Learning from Errors Toward Automating Model Improvement [93.38736019287224]
LLMs-as-Instructors"フレームワークは、より小さなターゲットモデルのトレーニングを自律的に強化する。
このフレームワークは、"Learning from Errors"理論にインスパイアされ、ターゲットモデル内の特定のエラーを注意深く分析するインストラクターLLMを使用している。
本フレームワークでは,適切なトレーニングデータに対する誤応答のみに焦点を当てた「エラーからの学習」と,比較学習を用いて誤りの深い理解を行う「コントラストによるエラーからの学習」という2つの戦略を実装している。
論文 参考訳(メタデータ) (2024-06-29T17:16:04Z) - First-Step Advantage: Importance of Starting Right in Multi-Step Math Reasoning [11.75364271481855]
言語モデルは、予測のための合理性を生成することを学ぶことによって、複雑な推論タスクをよりよく解決することができる。
より小さなモデル、特に修正された場合には、彼らが他の方法で苦労したであろうタスクを解決できることを観察します。
我々はQuestCoTを提案し、より小さなモデルがまず、推論の連鎖で進む前に、どのように開始するかを自問する。
論文 参考訳(メタデータ) (2023-11-14T06:45:31Z) - Teaching Language Models to Self-Improve through Interactive Demonstrations [83.9421355808174]
大規模言語モデルの自己改善能力は欠如しており、より小さなモデルで学ぶことは困難である。
このような自己改善能力を持つ小型モデルのトレーニングアルゴリズムであるTriPosTを導入する。
我々は,LLaMA-7bの算数および推論タスクの性能を最大7.13%向上させることができることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。