論文の概要: Specializing Smaller Language Models towards Multi-Step Reasoning
- arxiv url: http://arxiv.org/abs/2301.12726v1
- Date: Mon, 30 Jan 2023 08:51:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 15:16:27.141990
- Title: Specializing Smaller Language Models towards Multi-Step Reasoning
- Title(参考訳): マルチステップ推論へ向けた小型言語モデルの特化
- Authors: Yao Fu, Hao Peng, Litu Ou, Ashish Sabharwal and Tushar Khot
- Abstract要約: GPT-3.5 (ge$ 175B) から T5 変種 (le$ 11B) までを蒸留できることを示す。
対象タスクに対するモデルの能力を専門化するモデル特殊化を提案する。
- 参考スコア(独自算出の注目度): 56.78474185485288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The surprising ability of Large Language Models (LLMs) to perform well on
complex reasoning with only few-shot chain-of-thought prompts is believed to
emerge only in very large-scale models (100+ billion parameters). We show that
such abilities can, in fact, be distilled down from GPT-3.5 ($\ge$ 175B) to T5
variants ($\le$ 11B). We propose model specialization, to specialize the
model's ability towards a target task. The hypothesis is that large models
(commonly viewed as larger than 100B) have strong modeling power, but are
spread on a large spectrum of tasks. Small models (commonly viewed as smaller
than 10B) have limited model capacity, but if we concentrate their capacity on
a specific target task, the model can achieve a decent improved performance. We
use multi-step math reasoning as our testbed because it is a very typical
emergent ability. We show two important aspects of model abilities: (1). there
exists a very complex balance/ tradeoff between language models'
multi-dimensional abilities; (2). by paying the price of decreased generic
ability, we can clearly lift up the scaling curve of models smaller than 10B
towards a specialized multi-step math reasoning ability. We further give
comprehensive discussions about important design choices for better
generalization, including the tuning data format, the start model checkpoint,
and a new model selection method. We hope our practice and discoveries can
serve as an important attempt towards specialized smaller models in the new
research paradigm set by LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の驚くべき能力は、非常に大規模なモデル(100億以上のパラメータ)にのみ現れると考えられている。
実際、そのような能力は、GPT-3.5(\ge$ 175B)からT5(\le$ 11B)まで蒸留可能である。
対象タスクに対するモデルの能力を専門化するモデル特殊化を提案する。
この仮説は、大きなモデル(一般に100B以上と見なされる)は強力なモデリング能力を持つが、多くのタスクに分散しているというものである。
小型モデル(一般的に10B未満と見なされる)はモデル能力に制限があるが、特定の目標タスクに集中すれば、モデルの性能は十分に向上する。
非常に典型的な創発的能力であるため、テストベッドとしてマルチステップの数学的推論を使用します。
モデル能力の2つの重要な側面を示す。
言語モデルの多次元能力の間には非常に複雑なバランス/トレードオフが存在する。
汎用能力の低下に費用を払えば、10b未満のモデルのスケーリング曲線を、特別な多段階数学推論能力へと明確に引き上げることができる。
さらに、チューニングデータフォーマット、開始モデルチェックポイント、新しいモデル選択方法など、より優れた一般化のための重要な設計選択に関する包括的な議論を行う。
LLMが設定した新しい研究パラダイムにおいて、我々の実践と発見が、より小さなモデルを専門化するための重要な試みとなることを願っている。
関連論文リスト
- UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - Go-tuning: Improving Zero-shot Learning Abilities of Smaller Language
Models [23.818751895205132]
Go-tuningは幾何学誘導型自己教師型学習法である。
ゴーチューニングは、T5-XL(3B)のような大きな言語モデルと比較して、T5-小(80M)の競合ゼロショット結果を可能にする。
論文 参考訳(メタデータ) (2022-12-20T17:36:49Z) - Large Language Models Are Reasoning Teachers [9.290757451344673]
ファインチューンCoTは、非常に大きな教師モデルからより小さなモデルへの推論サンプルを生成する方法である。
また,Fin-Tune-CoTは,多くのタスクにおいて,プロンプトベースベースラインや教師モデルよりもはるかに優れた小型モデルにおいて,相当な推論能力を実現する。
論文 参考訳(メタデータ) (2022-12-20T08:24:45Z) - What Language Model to Train if You Have One Million GPU Hours? [54.32062236748831]
モデリングの実践の違いがゼロショット一般化に与える影響について検討する。
また、多言語モデルの性能と、英語のみとの比較についても検討する。
私たちのモデルとコードは、https://huggingface.co/bigscience.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-10-27T13:43:27Z) - Legal-Tech Open Diaries: Lesson learned on how to develop and deploy
light-weight models in the era of humongous Language Models [10.086015702323971]
私たちは、現代の法律技術スタートアップのR&Dグループのステップに従い、モデル開発とデプロイメントに関する重要な洞察を示します。
我々は、契約書や規制書に適合する複数のドメイン固有の多言語LMを事前訓練することで、ゼロから始める。
5つのダウンストリームタスクからなる半公的な半私的法定ベンチマークにおいて,そのようなモデルのベンチマーク結果を示す。
論文 参考訳(メタデータ) (2022-10-24T10:08:59Z) - Emergent Abilities of Large Language Models [172.08007363384218]
より小さなモデルには存在しないが、より大きなモデルには存在しない場合、創発する能力を考える。
このような出現の存在は、さらなるスケーリングが言語モデルの機能範囲をさらに拡大することを意味している。
論文 参考訳(メタデータ) (2022-06-15T17:32:01Z) - Predicting on the Edge: Identifying Where a Larger Model Does Better [61.793778186198864]
小型モデルが最も不確実な例では,大規模モデルが最も改善されていることを示す。
小型モデルが不確実な場合,サンプルを大モデルにデフェクトするスイッチャーモデルにより,性能と資源利用の大幅な向上が達成できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:53:14Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。