論文の概要: Teaching Small Language Models to Reason
- arxiv url: http://arxiv.org/abs/2212.08410v1
- Date: Fri, 16 Dec 2022 11:24:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 14:37:59.062129
- Title: Teaching Small Language Models to Reason
- Title(参考訳): 小さな言語モデルに推論を教える
- Authors: Lucie Charlotte Magister, Jonathan Mallinson, Jakub Adamek, Eric
Malmi, Aliaksei Severyn
- Abstract要約: 思考の連鎖は、大きな言語モデルの推論能力をうまく改善する。
我々は、知識蒸留による1000億のパラメータ未満のモデルへのそのような推論能力の移譲について検討する。
実験の結果,提案手法は算術的,常識的,記号的推論的データセット間でのタスク性能を向上させることがわかった。
- 参考スコア(独自算出の注目度): 19.625523231233128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain of thought prompting successfully improves the reasoning capabilities
of large language models, achieving state of the art results on a range of
datasets. However, these reasoning capabilities only appear to emerge in models
with a size of over 100 billion parameters. In this paper, we explore the
transfer of such reasoning capabilities to models with less than 100 billion
parameters via knowledge distillation. Specifically, we finetune a student
model on the chain of thought outputs generated by a larger teacher model. Our
experiments show that the proposed method improves task performance across
arithmetic, commonsense and symbolic reasoning datasets. For example, the
accuracy of T5 XXL on GSM8K improves from 8.11% to 21.99% when finetuned on
PaLM-540B generated chains of thought.
- Abstract(参考訳): 思考の連鎖は、大きな言語モデルの推論能力を改善することに成功し、さまざまなデータセット上で技術結果の状態を達成します。
しかし、これらの推論能力は、1000億以上のパラメータを持つモデルでのみ現れるように見える。
本稿では,1000億以上のパラメータを持つモデルへの知識蒸留による推論能力の移転について検討する。
具体的には,より大きな教師モデルによって生成された思考アウトプットの連鎖に学生モデルを適用した。
提案手法は算術,コモンセンス,シンボリック推論データセット全体のタスク性能を向上させる。
例えば、GSM8K 上の T5 XXL の精度は PaLM-540B で微調整すると 8.11% から 21.99% に向上する。
関連論文リスト
- Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - Emergent Abilities in Reduced-Scale Generative Language Models [10.51168925267033]
大規模言語モデルはタスク固有の微調整なしで新しいタスクを解くことができる。
この能力は創発的能力と見なされ、数十億のパラメータを持つ大きな言語モデルで主に見られる。
本研究では,そのような創発特性がモデルサイズと厳密に結びついているか,縮小スケールで訓練されたより小さなモデルで示すことができるかを検討する。
論文 参考訳(メタデータ) (2024-04-02T18:00:28Z) - TeacherLM: Teaching to Fish Rather Than Giving the Fish, Language Modeling Likewise [27.90035459143466]
我々は,ほとんどのNLPサンプルに対して,関連する基本,思考の連鎖,一般的な誤りを注釈できるTeachLM-7.1Bを提案する。
このモデルはMMLUで52.3のゼロショットスコアを獲得し、100B以上のパラメータを持つほとんどのモデルを上回った。
TeacherLMシリーズのモデルと拡張データセットをオープンソースとしてリリースします。
論文 参考訳(メタデータ) (2023-10-29T14:16:54Z) - Sci-CoT: Leveraging Large Language Models for Enhanced Knowledge
Distillation in Small Models for Scientific QA [5.117094291273979]
大規模言語モデル(LLM)は、幅広い下流タスクで優れたパフォーマンスを示している。
本稿では2段階のフレームワークであるSci-CoTを提案する。
我々の8000万のパラメータモデルは、いくつかのショット設定の下でARC-EasyデータセットにおけるBLOOM-176Bの性能を上回ることができる。
論文 参考訳(メタデータ) (2023-08-09T03:18:07Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z) - Specializing Smaller Language Models towards Multi-Step Reasoning [56.78474185485288]
GPT-3.5 (ge$ 175B) から T5 変種 (le$ 11B) までを蒸留できることを示す。
対象タスクに対するモデルの能力を専門化するモデル特殊化を提案する。
論文 参考訳(メタデータ) (2023-01-30T08:51:19Z) - Go-tuning: Improving Zero-shot Learning Abilities of Smaller Language
Models [23.818751895205132]
Go-tuningは幾何学誘導型自己教師型学習法である。
ゴーチューニングは、T5-XL(3B)のような大きな言語モデルと比較して、T5-小(80M)の競合ゼロショット結果を可能にする。
論文 参考訳(メタデータ) (2022-12-20T17:36:49Z) - Large Language Models Are Reasoning Teachers [9.290757451344673]
ファインチューンCoTは、非常に大きな教師モデルからより小さなモデルへの推論サンプルを生成する方法である。
また,Fin-Tune-CoTは,多くのタスクにおいて,プロンプトベースベースラインや教師モデルよりもはるかに優れた小型モデルにおいて,相当な推論能力を実現する。
論文 参考訳(メタデータ) (2022-12-20T08:24:45Z) - Scaling Instruction-Finetuned Language Models [126.4789306516927]
命令として表現されたデータセットの集合上での言語モデルの微調整は、モデル性能を改善することが示されている。
命令の微調整により,様々なモデルクラスの性能が劇的に向上することがわかった。
論文 参考訳(メタデータ) (2022-10-20T16:58:32Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Scaling Language Models: Methods, Analysis & Insights from Training
Gopher [83.98181046650664]
本稿では,トランスフォーマーに基づく言語モデルの性能を,幅広いモデルスケールで解析する。
スケールからのゲインは、理解、事実確認、有害言語の同定などにおいて最大である。
我々は、AIの安全性と下流の害の軽減に対する言語モデルの適用について論じる。
論文 参考訳(メタデータ) (2021-12-08T19:41:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。