論文の概要: Specializing Smaller Language Models towards Multi-Step Reasoning
- arxiv url: http://arxiv.org/abs/2301.12726v1
- Date: Mon, 30 Jan 2023 08:51:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 15:16:27.141990
- Title: Specializing Smaller Language Models towards Multi-Step Reasoning
- Title(参考訳): マルチステップ推論へ向けた小型言語モデルの特化
- Authors: Yao Fu, Hao Peng, Litu Ou, Ashish Sabharwal and Tushar Khot
- Abstract要約: GPT-3.5 (ge$ 175B) から T5 変種 (le$ 11B) までを蒸留できることを示す。
対象タスクに対するモデルの能力を専門化するモデル特殊化を提案する。
- 参考スコア(独自算出の注目度): 56.78474185485288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The surprising ability of Large Language Models (LLMs) to perform well on
complex reasoning with only few-shot chain-of-thought prompts is believed to
emerge only in very large-scale models (100+ billion parameters). We show that
such abilities can, in fact, be distilled down from GPT-3.5 ($\ge$ 175B) to T5
variants ($\le$ 11B). We propose model specialization, to specialize the
model's ability towards a target task. The hypothesis is that large models
(commonly viewed as larger than 100B) have strong modeling power, but are
spread on a large spectrum of tasks. Small models (commonly viewed as smaller
than 10B) have limited model capacity, but if we concentrate their capacity on
a specific target task, the model can achieve a decent improved performance. We
use multi-step math reasoning as our testbed because it is a very typical
emergent ability. We show two important aspects of model abilities: (1). there
exists a very complex balance/ tradeoff between language models'
multi-dimensional abilities; (2). by paying the price of decreased generic
ability, we can clearly lift up the scaling curve of models smaller than 10B
towards a specialized multi-step math reasoning ability. We further give
comprehensive discussions about important design choices for better
generalization, including the tuning data format, the start model checkpoint,
and a new model selection method. We hope our practice and discoveries can
serve as an important attempt towards specialized smaller models in the new
research paradigm set by LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の驚くべき能力は、非常に大規模なモデル(100億以上のパラメータ)にのみ現れると考えられている。
実際、そのような能力は、GPT-3.5(\ge$ 175B)からT5(\le$ 11B)まで蒸留可能である。
対象タスクに対するモデルの能力を専門化するモデル特殊化を提案する。
この仮説は、大きなモデル(一般に100B以上と見なされる)は強力なモデリング能力を持つが、多くのタスクに分散しているというものである。
小型モデル(一般的に10B未満と見なされる)はモデル能力に制限があるが、特定の目標タスクに集中すれば、モデルの性能は十分に向上する。
非常に典型的な創発的能力であるため、テストベッドとしてマルチステップの数学的推論を使用します。
モデル能力の2つの重要な側面を示す。
言語モデルの多次元能力の間には非常に複雑なバランス/トレードオフが存在する。
汎用能力の低下に費用を払えば、10b未満のモデルのスケーリング曲線を、特別な多段階数学推論能力へと明確に引き上げることができる。
さらに、チューニングデータフォーマット、開始モデルチェックポイント、新しいモデル選択方法など、より優れた一般化のための重要な設計選択に関する包括的な議論を行う。
LLMが設定した新しい研究パラダイムにおいて、我々の実践と発見が、より小さなモデルを専門化するための重要な試みとなることを願っている。
関連論文リスト
- What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。
これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。
本研究は,大規模モデルマージの有用性を体系的に評価する。
論文 参考訳(メタデータ) (2024-10-04T17:17:19Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Large Language Model Pruning [0.0]
LLMに特化したモデルプルーニング手法を提案する。
提案手法は深層学習モデルの説明可能性を強調する。
また、大規模モデルにおけるプルーニングと小規模モデルにおけるプルーニングの違いについても検討する。
論文 参考訳(メタデータ) (2024-05-24T18:22:15Z) - Emergent Abilities in Reduced-Scale Generative Language Models [10.51168925267033]
大規模言語モデルはタスク固有の微調整なしで新しいタスクを解くことができる。
この能力は創発的能力と見なされ、数十億のパラメータを持つ大きな言語モデルで主に見られる。
本研究では,そのような創発特性がモデルサイズと厳密に結びついているか,縮小スケールで訓練されたより小さなモデルで示すことができるかを検討する。
論文 参考訳(メタデータ) (2024-04-02T18:00:28Z) - When Do We Not Need Larger Vision Models? [55.957626371697785]
視覚モデルのサイズを拡大することが、より強力な視覚表現を得るためのデファクトスタンダードとなっている。
S$2のScaling on Scales(スケーリング・オン・スケール)のパワーを実演します。
1行のコードで任意のビジョンモデルにS$2$を適用可能なPythonパッケージをリリースします。
論文 参考訳(メタデータ) (2024-03-19T17:58:39Z) - Large Language Models Are Reasoning Teachers [9.290757451344673]
ファインチューンCoTは、非常に大きな教師モデルからより小さなモデルへの推論サンプルを生成する方法である。
また,Fin-Tune-CoTは,多くのタスクにおいて,プロンプトベースベースラインや教師モデルよりもはるかに優れた小型モデルにおいて,相当な推論能力を実現する。
論文 参考訳(メタデータ) (2022-12-20T08:24:45Z) - What Language Model to Train if You Have One Million GPU Hours? [54.32062236748831]
モデリングの実践の違いがゼロショット一般化に与える影響について検討する。
また、多言語モデルの性能と、英語のみとの比較についても検討する。
私たちのモデルとコードは、https://huggingface.co/bigscience.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-10-27T13:43:27Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。