Fugu-MT 論文翻訳(概要): Distilling Multi-Step Reasoning Capabilities of Large Language Models into Smaller Models via Semantic Decompositions

論文の概要: Distilling Multi-Step Reasoning Capabilities of Large Language Models into Smaller Models via Semantic Decompositions

arxiv url: http://arxiv.org/abs/2212.00193v1
Date: Thu, 1 Dec 2022 00:39:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-02 14:53:53.328698
Title: Distilling Multi-Step Reasoning Capabilities of Large Language Models into Smaller Models via Semantic Decompositions
Title（参考訳）: 意味分解による大規模言語モデルの多段階推論能力を小型モデルに蒸留する
Authors: Kumar Shridhar, Alessandro Stolfo, Mrinmaya Sachan
Abstract要約: 分解蒸留は、元の問題の意味的な分解をサブプロブレムの列へと学習する。 CoT推論を用いて訓練した10倍のGPT-3(6B)モデルより優れたGPT-2大モデル(775M)を訓練することが可能である。
参考スコア（独自算出の注目度）: 83.66051257039763
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Step-by-step reasoning approaches like chain-of-thought (CoT) have proved to be a very effective technique to induce reasoning capabilities in large language models. However, the success of the CoT approach depends primarily on model size, and often billion parameter-scale models are needed to get CoT to work. In this paper, we propose a knowledge distillation approach, that leverages the step-by-step CoT reasoning capabilities of larger models and distils these reasoning abilities into smaller models. Our approach Decompositional Distillation learns a semantic decomposition of the original problem into a sequence of subproblems and uses it to train two models: a) a problem decomposer that learns to decompose the complex reasoning problem into a sequence of simpler sub-problems and b) a problem solver that uses the intermediate subproblems to solve the overall problem. On a multi-step math word problem dataset (GSM8K), we boost the performance of GPT-2 variants up to 35% when distilled with our approach compared to CoT. We show that using our approach, it is possible to train a GPT-2-large model (775M) that can outperform a 10X larger GPT-3 (6B) model trained using CoT reasoning. Finally, we also demonstrate that our approach of problem decomposition can also be used as an alternative to CoT prompting, which boosts the GPT-3 performance by 40% compared to CoT prompts.
Abstract（参考訳）: cot(chain-of-thought)のようなステップバイステップの推論アプローチは、大規模言語モデルにおいて推論能力を誘導する非常に効果的なテクニックであることが証明されている。しかし、CoTアプローチの成功は主にモデルのサイズに依存し、CoTを機能させるためには数十億のパラメータスケールモデルが必要であることが多い。本稿では,より大きなモデルの段階的なcot推論能力を活用し,これらの推論能力をより小さなモデルに分解する知識蒸留手法を提案する。本手法では,原問題のセマンティクス分解をサブプロブレム列に学習し,2つのモデルを訓練する。 a) 複雑な推論問題をより単純なサブプロブレムの列に分解することを学ぶ問題分解器 b) 中間のサブプロブレムを用いて全体の問題を解く問題解決器マルチステップ数学語問題データセット(GSM8K)では,提案手法をCoTと比較した場合,GPT-2変種の性能を最大35%向上させる。提案手法を用いることで,CoT推論を用いて訓練した10倍のGPT-3(6B)モデルより優れたGPT-2大モデル(775M)を訓練できることを示す。最後に,問題分解のアプローチがCoTプロンプトの代替として利用できることを示し,GPT-3の性能をCoTプロンプトと比較して40%向上させることを示した。

関連論文リスト

The Challenge of Teaching Reasoning to LLMs Without RL or Distillation [31.973226821366325]
推論可能な言語モデルは、長く明示的なChain-of-Thoughtトレースを生成することで、様々な複雑なタスクにおいて最先端のパフォーマンスを達成する。我々は、プロンプトや最小限のチューニングのみを用いて、ベースモデルでCoTを誘導できるかどうかを問う。結果として得られたモデルは、はるかに大きなtexttQwen2.5-Math-72B-Instruct よりも優れており、いくつかの高品質な例が強力な推論能力を解き放つ可能性があることを示している。
論文参考訳（メタデータ） (2025-07-14T01:14:50Z)
Prompting Science Report 2: The Decreasing Value of Chain of Thought in Prompting [0.0]
Chain-of-Thought(CoT)プロンプトは,大規模言語モデルに“ステップバイステップ”を推奨するテクニックである。 CoTプロンプトの有効性はタスクの種類やモデルによって大きく異なる。明確な推論能力を持つモデルの場合、CoTのプロンプトは答えの正確性に限界があるだけである。
論文参考訳（メタデータ） (2025-06-08T13:41:25Z)
Why Do More Experts Fail? A Theoretical Analysis of Model Merging [51.18155031364046]
モデルマージは、複数のエキスパートモデルを単一のマルチタスクモデルに組み合わせることで、ストレージと計算資源を劇的に削減する。最近のモデルマージ手法は有望な結果を示しているが、マージモデルの増加に伴い性能向上の維持に苦慮している。限定効用パラメータ空間は、マージを成功させることのできるモデルの数に厳密な制約を課すことを示す。
論文参考訳（メタデータ） (2025-05-27T14:10:46Z)
Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning? [57.17826305464394]
o1-likeモデルは、既存のLarge Language Models(LLM)の推論能力を改善するための長いチェーン・オブ・ソート(CoT)推論ステップを生成する。 DeltaBenchを導入し、異なる推論タスクのために異なるo1-likeモデルから生成された長いCoTを含む。 DeltaBenchに基づいて、生成した長いCoTのきめ細かい分析を行い、異なるo1モデルの有効性と効率を明らかにする。
論文参考訳（メタデータ） (2025-02-26T17:59:27Z)
Small Models Struggle to Learn from Strong Reasoners [14.895026967556088]
小さなモデルは、大きなモデルからの長い連鎖推論や蒸留の恩恵を受けない。我々は、長いCoTの例と短いCoTの例を組み合わせて推論の複雑さをバランスさせる戦略であるMix Distillationを提案する。実験により, 混合蒸留は, いずれのデータ単独でのトレーニングよりも, 小型モデル推算性能を著しく向上させることが示された。
論文参考訳（メタデータ） (2025-02-17T18:56:15Z)
BOLT: Bootstrap Long Chain-of-Thought in Language Models without Distillation [88.77999917897702]
OpenAIのo1は、驚くべき推論機能を示している。多くのチームがLongCoTと推論機能を再現しようと試みている。本稿では,o1-likeモデルや高価な人体アノテーションを蒸留することなくLCMのLongCoTキャパシティを実現するための新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-02-06T08:19:59Z)
SIKeD: Self-guided Iterative Knowledge Distillation for mathematical reasoning [49.29200323760457]
大きな言語モデル(LLM)は、推論スキルをより小さなモデルに転送することができる。より小さなモデルは蒸留時に全ての戦略にLLM分布を適合させるほど表現力に乏しい。この1つの戦略への依存は、より小さなモデルにおいて、望ましい戦略で困難な推論タスクを解決しようとするときに、課題となる。
論文参考訳（メタデータ） (2024-10-24T09:29:18Z)
Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文参考訳（メタデータ） (2024-10-18T22:38:08Z)
Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。 DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文参考訳（メタデータ） (2024-07-03T15:01:18Z)
ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文参考訳（メタデータ） (2024-03-21T11:34:26Z)
Divide-or-Conquer? Which Part Should You Distill Your LLM? [38.62667131299918]
我々は、推論タスクを問題解決フェーズと問題解決フェーズに分解する同様の戦略を考案する。戦略が単一ステージソリューションより優れていることを示す。
論文参考訳（メタデータ） (2024-02-22T22:28:46Z)
First-Step Advantage: Importance of Starting Right in Multi-Step Math Reasoning [11.75364271481855]
言語モデルは、予測のための合理性を生成することを学ぶことによって、複雑な推論タスクをよりよく解決することができる。より小さなモデル、特に修正された場合には、彼らが他の方法で苦労したであろうタスクを解決できることを観察します。我々はQuestCoTを提案し、より小さなモデルがまず、推論の連鎖で進む前に、どのように開始するかを自問する。
論文参考訳（メタデータ） (2023-11-14T06:45:31Z)
Large Language Models Are Reasoning Teachers [9.290757451344673]
ファインチューンCoTは、非常に大きな教師モデルからより小さなモデルへの推論サンプルを生成する方法である。また,Fin-Tune-CoTは,多くのタスクにおいて,プロンプトベースベースラインや教師モデルよりもはるかに優れた小型モデルにおいて,相当な推論能力を実現する。
論文参考訳（メタデータ） (2022-12-20T08:24:45Z)
Scaling Distributed Deep Learning Workloads beyond the Memory Capacity with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文参考訳（メタデータ） (2020-08-26T07:24:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。