論文の概要: Distilling Reasoning Capabilities into Smaller Language Models
- arxiv url: http://arxiv.org/abs/2212.00193v2
- Date: Thu, 18 May 2023 04:44:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 20:31:57.861437
- Title: Distilling Reasoning Capabilities into Smaller Language Models
- Title(参考訳): より小さな言語モデルへの蒸留推論能力
- Authors: Kumar Shridhar, Alessandro Stolfo, Mrinmaya Sachan
- Abstract要約: 思考の連鎖(CoT)のようなステップバイステップの推論アプローチは、大規模言語モデルにおける推論能力の誘導に非常に効果的であることが証明されている。
しかし、CoTアプローチの成功は基本的にモデルのサイズに結びついており、CoTを機能させるためには数十億のパラメータスケールモデルが必要であることが多い。
本研究では,大規模モデルのCoT推論能力を段階的に活用し,これらの能力をより小さなモデルに蒸留する知識蒸留手法を提案する。
- 参考スコア(独自算出の注目度): 83.66051257039763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Step-by-step reasoning approaches like chain of thought (CoT) have proved to
be very effective in inducing reasoning capabilities in large language models.
However, the success of the CoT approach is fundamentally tied to the model
size, and billion parameter-scale models are often needed to get CoT to work.
In this paper, we propose a knowledge distillation approach that leverages the
step-by-step CoT reasoning capabilities of larger models and distills these
abilities into smaller models.
In this work, we propose an alternative reasoning scheme, Socratic CoT, that
learns a decomposition of the original problem into a sequence of subproblems
and uses it to guide the intermediate reasoning steps. We use Socratic CoT to
train a combination of two small distilled models: a problem decomposer and a
subproblem solver. In practice, given a new problem, the two distilled models
work in sync to decompose and solve complex problems. On multiple reasoning
datasets (GSM8K, StrategyQA, and SVAMP), our proposed distillation strategies
boosts the performance of smaller models over 70% compared to the baselines.
Finally, we investigate when Socratic CoT is an effective alternative to CoT,
demonstrating cases where a much smaller model (GPT-2 large) can outperform a
10X larger model (GPT-3 6B). Our code is available here:
https://github.com/kumar-shridhar/Distiiling-LM
- Abstract(参考訳): 思考の連鎖(CoT)のようなステップバイステップの推論アプローチは、大規模言語モデルにおける推論能力の誘導に非常に効果的であることが証明されている。
しかし、CoTアプローチの成功は基本的にモデルのサイズに結びついており、CoTを機能させるためには数十億のパラメータスケールモデルが必要であることが多い。
本稿では,大規模モデルのCoT推論能力を段階的に活用し,これらの能力をより小さなモデルに蒸留する知識蒸留手法を提案する。
そこで本研究では,元の問題を一連の部分問題に分解し,それを用いて中間的推論ステップを導く,代替的推論スキームであるsocratic cotを提案する。
我々は、Socratic CoTを使って、2つの小さな蒸留モデル(問題解法とサブプロブレム解法)を訓練する。
実際には、新しい問題が発生すると、2つの蒸留モデルが同期して、複雑な問題を分解し、解決する。
複数の推論データセット(GSM8K,StrategyQA,SVAMP)では,提案した蒸留手法により,ベースラインに比べて70%以上の小型モデルの性能が向上する。
最後に,Socratic CoTがCoTの有効な代替品である場合について検討し,より小さなモデル (GPT-2 large) が10倍のモデル (GPT-3 6B) より優れていることを示す。
私たちのコードはこちらで入手可能です。
関連論文リスト
- T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Large
Language Model Signals for Science Question Answering [68.12229916000584]
大規模言語モデル(LLM)は、最近、様々な自然言語処理(NLP)タスクにおいて、例外的な性能を示した。
最近の研究では、科学質問応答タスクのような複雑なマルチモーダルシナリオにおけるチェーン・オブ・シント(CoT)推論が研究されている。
LLM信号を用いた科学質問応答の指導を目的としたemphT-SciQという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-05T11:56:30Z) - Multimodal Chain-of-Thought Reasoning in Language Models [80.902171201496]
大規模言語モデル(LLM)は、チェーン・オブ・ソート(CoT)を利用して複雑な推論において印象的な性能を示した。
本稿では,視覚機能を分離したトレーニングフレームワークに組み込んだマルチモーダルCoTを提案する。
Multimodal-CoTでは、ScienceQAベンチマークで10億のパラメータ未満のモデルで、従来の最先端のLCM(GPT-3.5)を16%(75.17%->91.68%)上回るパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z) - Large Language Models Are Reasoning Teachers [9.290757451344673]
ファインチューンCoTは、非常に大きなLMの能力を利用して推論サンプルを生成し、より小さなモデルを微調整で教える手法である。
また,Fin-Tune-CoTは小型モデルでかなりの推理能力を実現するが,従来のプロンプトベースラインではほぼランダムな性能を示した。
論文 参考訳(メタデータ) (2022-12-20T08:24:45Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [110.22103750297622]
本稿では,パーマテーションフローショップスケジューリング問題を解決するための学習モデルを提案する。
我々は、専門家主導の模倣学習を通じてモデルをトレーニングし、より安定かつ正確に収束を加速する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Learning to Decompose: Hypothetical Question Decomposition Based on
Comparable Texts [65.84370471189676]
本研究は,分解型変圧器の大規模中間訓練について,比較テキストから遠ざかって検討する。
このような中間的事前学習により、多様なタスクのための堅牢な分解ベースモデルの開発がより実現可能であることを示す。
論文 参考訳(メタデータ) (2022-10-30T15:38:03Z) - Git Re-Basin: Merging Models modulo Permutation Symmetries [3.5450828190071655]
提案手法は,大規模ネットワークに適合する簡単なアルゴリズムを実例で示す。
我々は、独立に訓練されたモデル間のゼロモード接続の最初のデモ(私たちの知る限り)を実演する。
また、線形モード接続仮説の欠点についても論じる。
論文 参考訳(メタデータ) (2022-09-11T10:44:27Z) - Tesseract: Tensorised Actors for Multi-Agent Reinforcement Learning [92.05556163518999]
MARLは、コミュニケーションと可観測性に様々な制約を課すことによって、問題を悪化させる。
値ベースの手法では、最適な値関数を正確に表現することが課題となる。
政策勾配法では、批判者の訓練を困難にし、遅れる批判者の問題を悪化させる。
学習理論の観点からは、関連するアクション値関数を正確に表現することで、両方の問題に対処できることが示される。
論文 参考訳(メタデータ) (2021-05-31T23:08:05Z) - The Power of Scale for Parameter-Efficient Prompt Tuning [4.481348281462904]
プロンプトチューニング」は、特定の下流タスクを実行するために、凍結した言語モデルに「ソフトプロンプト」を学習するための単純なメカニズムである。
我々のエンドツーエンドの学習アプローチは、GPT-3の「ファウショット」学習を大きなマージンで上回ります。
論文 参考訳(メタデータ) (2021-04-18T03:19:26Z) - Manifold Proximal Point Algorithms for Dual Principal Component Pursuit
and Orthogonal Dictionary Learning [32.87704663543739]
様々な機械学習アプリケーションで発生する球面上の線形写像を最大化する問題を考える。
球面をスティーフェル行列に置き換える問題に対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-05T17:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。