論文の概要: Distilling Multi-Step Reasoning Capabilities of Large Language Models
into Smaller Models via Semantic Decompositions
- arxiv url: http://arxiv.org/abs/2212.00193v1
- Date: Thu, 1 Dec 2022 00:39:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 14:53:53.328698
- Title: Distilling Multi-Step Reasoning Capabilities of Large Language Models
into Smaller Models via Semantic Decompositions
- Title(参考訳): 意味分解による大規模言語モデルの多段階推論能力を小型モデルに蒸留する
- Authors: Kumar Shridhar, Alessandro Stolfo, Mrinmaya Sachan
- Abstract要約: 分解蒸留は、元の問題の意味的な分解をサブプロブレムの列へと学習する。
CoT推論を用いて訓練した10倍のGPT-3(6B)モデルより優れたGPT-2大モデル(775M)を訓練することが可能である。
- 参考スコア(独自算出の注目度): 83.66051257039763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Step-by-step reasoning approaches like chain-of-thought (CoT) have proved to
be a very effective technique to induce reasoning capabilities in large
language models. However, the success of the CoT approach depends primarily on
model size, and often billion parameter-scale models are needed to get CoT to
work. In this paper, we propose a knowledge distillation approach, that
leverages the step-by-step CoT reasoning capabilities of larger models and
distils these reasoning abilities into smaller models. Our approach
Decompositional Distillation learns a semantic decomposition of the original
problem into a sequence of subproblems and uses it to train two models: a) a
problem decomposer that learns to decompose the complex reasoning problem into
a sequence of simpler sub-problems and b) a problem solver that uses the
intermediate subproblems to solve the overall problem. On a multi-step math
word problem dataset (GSM8K), we boost the performance of GPT-2 variants up to
35% when distilled with our approach compared to CoT. We show that using our
approach, it is possible to train a GPT-2-large model (775M) that can
outperform a 10X larger GPT-3 (6B) model trained using CoT reasoning. Finally,
we also demonstrate that our approach of problem decomposition can also be used
as an alternative to CoT prompting, which boosts the GPT-3 performance by 40%
compared to CoT prompts.
- Abstract(参考訳): cot(chain-of-thought)のようなステップバイステップの推論アプローチは、大規模言語モデルにおいて推論能力を誘導する非常に効果的なテクニックであることが証明されている。
しかし、CoTアプローチの成功は主にモデルのサイズに依存し、CoTを機能させるためには数十億のパラメータスケールモデルが必要であることが多い。
本稿では,より大きなモデルの段階的なcot推論能力を活用し,これらの推論能力をより小さなモデルに分解する知識蒸留手法を提案する。
本手法では,原問題のセマンティクス分解をサブプロブレム列に学習し,2つのモデルを訓練する。
a) 複雑な推論問題をより単純なサブプロブレムの列に分解することを学ぶ問題分解器
b) 中間のサブプロブレムを用いて全体の問題を解く問題解決器
マルチステップ数学語問題データセット(GSM8K)では,提案手法をCoTと比較した場合,GPT-2変種の性能を最大35%向上させる。
提案手法を用いることで,CoT推論を用いて訓練した10倍のGPT-3(6B)モデルより優れたGPT-2大モデル(775M)を訓練できることを示す。
最後に,問題分解のアプローチがCoTプロンプトの代替として利用できることを示し,GPT-3の性能をCoTプロンプトと比較して40%向上させることを示した。
関連論文リスト
- AS-ES Learning: Towards Efficient CoT Learning in Small Models [35.225382243612174]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)において重要な出現能力として機能する
本稿では,CoT内固有の情報を反復生成に活用したAS-ES学習手法を提案する。
実験により,データ拡張やモデル自体の変更を伴わずに,MWPやPET要約などのCoT集約タスクにおけるSeq2seqトレーニングを超越した手法が得られた。
論文 参考訳(メタデータ) (2024-03-04T12:13:59Z) - Divide-or-Conquer? Which Part Should You Distill Your LLM? [40.563633582127316]
我々は、推論タスクを問題解決フェーズと問題解決フェーズに分解する同様の戦略を考案する。
戦略が単一ステージソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2024-02-22T22:28:46Z) - Divide and Conquer for Large Language Models Reasoning [53.27384085738965]
本稿では,大言語モデルにDivide and Conquer戦略を適用することを提案する。
まず、統計的信頼度スコアに基づいて、質問を異なるサブセットに分割する。
そして、ほぼ解決された集合を修正し、精巧に設計された手法で要求されるニュアンス処理を克服します。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - Guiding Language Model Math Reasoning with Planning Tokens [128.57605860640948]
各推論ステップの開始時に計画トークンを導入し、モデルのガイドとして機能し、モデルパラメータにそれらの埋め込みを追加する。
提案手法では、トレーニング可能なパラメータ(わずか0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z) - Multimodal Chain-of-Thought Reasoning in Language Models [80.902171201496]
大規模言語モデル(LLM)は、チェーン・オブ・ソート(CoT)を利用して複雑な推論において印象的な性能を示した。
本稿では,視覚機能を分離したトレーニングフレームワークに組み込んだマルチモーダルCoTを提案する。
Multimodal-CoTでは、ScienceQAベンチマークで10億のパラメータ未満のモデルで、従来の最先端のLCM(GPT-3.5)を16%(75.17%->91.68%)上回るパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z) - Voting from Nearest Tasks: Meta-Vote Pruning of Pre-trained Models for
Downstream Tasks [55.431048995662714]
我々は、類似タスクの刈り取られたモデルから、新しいタスクのための小さなモデルを作成する。
このモデルに関するいくつかの微調整ステップは、新しいタスクに対して有望なプルーンドモデルを生成するのに十分であることを示す。
我々は, 単純だが効果的な'Meta-Vote Pruning (MVP)' 手法を開発した。
論文 参考訳(メタデータ) (2023-01-27T06:49:47Z) - Large Language Models Are Reasoning Teachers [9.290757451344673]
ファインチューンCoTは、非常に大きな教師モデルからより小さなモデルへの推論サンプルを生成する方法である。
また,Fin-Tune-CoTは,多くのタスクにおいて,プロンプトベースベースラインや教師モデルよりもはるかに優れた小型モデルにおいて,相当な推論能力を実現する。
論文 参考訳(メタデータ) (2022-12-20T08:24:45Z) - MiniALBERT: Model Distillation via Parameter-Efficient Recursive
Transformers [12.432191400869002]
MiniALBERTは、完全にパラメータ化されたLM(BERTなど)の知識をコンパクトな再帰的な学生に変換する技術である。
提案したモデルを,様々な一般的・バイオメディカルなNLPタスクで検証し,その有効性を実証し,最先端および既存のコンパクトモデルと比較した。
論文 参考訳(メタデータ) (2022-10-12T17:23:21Z) - A Conditional Cascade Model for Relational Triple Extraction [0.9926500244448218]
タグベースの手法は三重抽出における主要な手法の1つである。
ほとんどが階級不均衡の問題に悩まされている。
この問題に対処する新しいタグ付けモデルを提案する。
論文 参考訳(メタデータ) (2021-08-20T03:00:59Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。