論文の概要: Beyond Imitation: Learning Key Reasoning Steps from Dual Chain-of-Thoughts in Reasoning Distillation
- arxiv url: http://arxiv.org/abs/2405.19737v1
- Date: Thu, 30 May 2024 06:32:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 15:48:50.679768
- Title: Beyond Imitation: Learning Key Reasoning Steps from Dual Chain-of-Thoughts in Reasoning Distillation
- Title(参考訳): 想像を超えて: 蒸留における2重鎖から重要な推論ステップを学ぶ
- Authors: Chengwei Dai, Kun Li, Wei Zhou, Songlin Hu,
- Abstract要約: 我々はmistaktextbfE-textbfDriven key reasontextbfIng step distillatextbfTion (textbfEDIT)を提案する。
我々は、類似の推論経路を持つ2つのCoTsデータを生成するためのプロンプトを設計する。
実験は、ドメイン内およびドメイン外のベンチマーク推論データセットの両方でEDITの有効性を検証する。
- 参考スコア(独自算出の注目度): 24.272384832200522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) scale up and gain powerful Chain-of-Thoughts (CoTs) reasoning abilities, practical resource constraints drive efforts to distill these capabilities into more compact Smaller Language Models (SLMs). We find that CoTs consist mainly of simple reasoning forms, with a small proportion ($\approx 4.7\%$) of key reasoning steps that truly impact conclusions. However, previous distillation methods typically involve supervised fine-tuning student SLMs only on correct CoTs data produced by teacher LLMs, resulting in students struggling to learn the key reasoning steps, instead imitating the teacher's reasoning forms and making errors or omissions on these steps. To address these issues, drawing an analogy to human learning, where analyzing mistakes according to correct solutions often reveals the crucial steps leading to successes or failures, we propose mistak\textbf{E}-\textbf{D}riven key reason\textbf{I}ng step distilla\textbf{T}ion (\textbf{EDIT}), a novel method that further aids SLMs learning key reasoning steps rather than mere simple fine-tuning. Firstly, to expose these crucial steps in CoTs, we design specific prompts to generate dual CoTs data with similar reasoning paths but divergent conclusions. Then, we apply the minimum edit distance algorithm on the dual CoTs data to locate these key steps and optimize the likelihood of these steps. Extensive experiments validate the effectiveness of EDIT across both in-domain and out-of-domain benchmark reasoning datasets. Further analysis shows that EDIT can generate high-quality CoTs with more correct key reasoning steps. Notably, we also explore how different mistake patterns affect performance and find that EDIT benefits more from logical errors than from knowledge or mathematical calculation errors in dual CoTs\footnote{Code can be found at \url{https://github.com/C-W-D/EDIT}}.
- Abstract(参考訳): 大規模言語モデル(LLM)がスケールアップし、強力なCoT(Chain-of-Thoughts)推論能力を得るにつれ、実用的なリソース制約により、これらの機能をよりコンパクトなSLM(Smaller Language Models)へと拡張する努力が進められる。
CoTsは主に単純な推論形式で構成されており、結論に真に影響を及ぼす重要な推論ステップの小さな割合($\approx 4.7\%$)がある。
しかし、従来の蒸留法では教師による微調整の学生SLMは、教師のLSMが生成した正しいCoTデータにのみ適用され、結果として、教師の推論フォームを模倣し、これらのステップでエラーや省略を行う代わりに、重要な推論ステップを学ぶのに苦労する。
これらの問題に対処するために、正しい解によるミス分析が成功や失敗につながる重要なステップをしばしば明らかにする人間の学習に類似して、簡単な微調整ではなく、SLMの学習の重要な推論ステップを支援する新しい手法であるmistak\textbf{E}-\textbf{D}riven key reason\textbf{I}ng step distilla\textbf{T}ion (\textbf{EDIT})を提案する。
まず,CoTsにおけるこれらの重要なステップを明らかにするために,類似の推論経路を持つ2つのCoTsデータを生成するための特定のプロンプトを設計する。
次に、2つのCoTデータに最小編集距離アルゴリズムを適用し、これらの重要なステップを探索し、これらのステップの確率を最適化する。
大規模な実験は、ドメイン内およびドメイン外のベンチマーク推論データセットの両方でEDITの有効性を検証する。
さらに分析したところ、EDITはより正確なキー推論ステップで高品質なCoTを生成することができることがわかった。
さらに,2つのCoTs\footnote{Codeの知識や数理計算エラーよりも,論理的エラーの方がEDITのメリットが高いことも確認した。
関連論文リスト
- Stepwise Perplexity-Guided Refinement for Efficient Chain-of-Thought Reasoning in Large Language Models [56.37421741507468]
CoT推論は大規模言語モデル(LLM)の性能を大幅に向上させた。
本稿では,その重要性の尺度としてパープレキシティを用いた批判的推論ステップの同定手法を提案する。
論文 参考訳(メタデータ) (2025-02-18T20:04:51Z) - LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組む
また,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。
たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-11T08:48:48Z) - BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning [83.03531832811386]
BoostStep はステップ整列 ICL の例を通して推論精度を向上させる方法である。
チェーン・オブ・シークレット(CoT)とツリー検索アルゴリズムをシームレスに統合する。
AIMEにおけるDeepSeek-R1-671Bのパフォーマンスを2.2%改善し、MATHデータセットからの単純な例のみを活用する。
論文 参考訳(メタデータ) (2025-01-06T18:59:13Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - A Hopfieldian View-based Interpretation for Chain-of-Thought Reasoning [48.51969964676017]
CoT(Chain-of-Thought)は、大規模言語モデルの推論性能を高める上で重要な位置を占めている。
本稿では,CoTの精度を制御するためのリード・アンド・コントロル手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T04:07:13Z) - The Impact of Reasoning Step Length on Large Language Models [40.546685248243534]
思考の連鎖(CoT)は、大きな言語モデルの推論能力を改善する上で重要である。
プロンプトにおけるCoTの有効性と推論ステップの長さの相関について検討した。
論文 参考訳(メタデータ) (2024-01-10T04:37:38Z) - Evaluating and Improving Tool-Augmented Computation-Intensive Math
Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。
ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。
CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-06-04T17:02:59Z) - PaD: Program-aided Distillation Can Teach Small Models Reasoning Better than Chain-of-thought Fine-tuning [20.59775450213501]
本稿では, 蒸留データの誤りを抑えるための推論プログラムを導入したPaD(Program-Aided Distillation)を提案する。
算術的推論,記号的推論,一般能力に基づいてPaDを評価する。
論文 参考訳(メタデータ) (2023-05-23T10:11:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。