論文の概要: Go-tuning: Improving Zero-shot Learning Abilities of Smaller Language
Models
- arxiv url: http://arxiv.org/abs/2212.10461v1
- Date: Tue, 20 Dec 2022 17:36:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 15:47:34.683632
- Title: Go-tuning: Improving Zero-shot Learning Abilities of Smaller Language
Models
- Title(参考訳): Go-tuning: より小さな言語モデルのゼロショット学習能力を改善する
- Authors: Jingjing Xu, Qingxiu Dong, Hongyi Liu and Lei Li
- Abstract要約: Go-tuningは幾何学誘導型自己教師型学習法である。
ゴーチューニングは、T5-XL(3B)のような大きな言語モデルと比較して、T5-小(80M)の競合ゼロショット結果を可能にする。
- 参考スコア(独自算出の注目度): 23.818751895205132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With increasing scale, large language models demonstrate both quantitative
improvement and new qualitative capabilities, especially as zero-shot learners,
like GPT-3. However, these results rely heavily on delicate prompt design and
large computation. In this work, we explore whether the strong zero-shot
ability could be achieved at a smaller model scale without any external
supervised data. To achieve this goal, we revisit masked language modeling and
present a geometry-guided self-supervised learning method (Go-tuningfor short)
by taking a small number of task-aware self-supervised data to update language
models further. Experiments show that Go-tuning can enable T5-small (80M)
competitive zero-shot results compared with large language models, such as
T5-XL (3B). We also apply Go-tuning on multi-task settings and develop a
multi-task model, mgo-T5 (250M). It can reach the average performance of OPT
(175B) on 9 datasets.
- Abstract(参考訳): 大規模化に伴い、大規模言語モデルは、特にGPT-3のようなゼロショット学習者として、量的改善と新しい定性的能力の両方を示す。
しかし、これらの結果は繊細な素早い設計と大規模な計算に大きく依存している。
本研究では,外部の教師付きデータなしで,より小さなモデルスケールで強力なゼロショット能力を実現することができるか検討する。
この目的を達成するために,マスキング型言語モデルを再検討し,少数のタスク認識型自己教師付きデータを用いて言語モデルをさらに更新することにより,幾何学的ガイド付き自己教師付き学習手法(go-tuning)を提案する。
実験により、Goチューニングにより、T5-XL (3B)のような大きな言語モデルと比較して、T5-小 (80M) の競合ゼロショット結果が得られることが示された。
また,マルチタスク設定にGo-tuningを適用し,マルチタスクモデルであるmgo-T5(250M)を開発した。
9つのデータセット上で OPT (175B) の平均パフォーマンスに達することができる。
関連論文リスト
- Emergent Abilities in Reduced-Scale Generative Language Models [10.51168925267033]
大規模言語モデルはタスク固有の微調整なしで新しいタスクを解くことができる。
この能力は創発的能力と見なされ、数十億のパラメータを持つ大きな言語モデルで主に見られる。
本研究では,そのような創発特性がモデルサイズと厳密に結びついているか,縮小スケールで訓練されたより小さなモデルで示すことができるかを検討する。
論文 参考訳(メタデータ) (2024-04-02T18:00:28Z) - Small Models are Valuable Plug-ins for Large Language Models [65.29370906766997]
GPT-3やGPT-4のような大きな言語モデル(LLM)は強力だが、その重み付けはしばしば一般には利用できない。
我々は,局所的に微調整された小型モデルでブラックボックスLLMを動作させることができるSuper In-Context Learning (SuperICL)を提案する。
論文 参考訳(メタデータ) (2023-05-15T17:59:01Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - Specializing Smaller Language Models towards Multi-Step Reasoning [56.78474185485288]
GPT-3.5 (ge$ 175B) から T5 変種 (le$ 11B) までを蒸留できることを示す。
対象タスクに対するモデルの能力を専門化するモデル特殊化を提案する。
論文 参考訳(メタデータ) (2023-01-30T08:51:19Z) - Teaching Small Language Models to Reason [19.625523231233128]
思考の連鎖は、大きな言語モデルの推論能力をうまく改善する。
我々は、知識蒸留による1000億のパラメータ未満のモデルへのそのような推論能力の移譲について検討する。
実験の結果,提案手法は算術的,常識的,記号的推論的データセット間でのタスク性能を向上させることがわかった。
論文 参考訳(メタデータ) (2022-12-16T11:24:42Z) - Scaling Instruction-Finetuned Language Models [126.4789306516927]
命令として表現されたデータセットの集合上での言語モデルの微調整は、モデル性能を改善することが示されている。
命令の微調整により,様々なモデルクラスの性能が劇的に向上することがわかった。
論文 参考訳(メタデータ) (2022-10-20T16:58:32Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Sharpness-Aware Minimization Improves Language Model Generalization [46.83888240127077]
シャープネス認識最小化(SAM)は,計算オーバーヘッドを伴わずに言語モデルの一般化を大幅に改善できることを示す。
SAMは,SuperGLUE,GLUE,Web Questions,Natural Questions,Trivia QA,TyDiQAの性能向上を図っている。
論文 参考訳(メタデータ) (2021-10-16T09:44:06Z) - Finetuned Language Models Are Zero-Shot Learners [67.70352207685558]
命令チューニングは、目に見えないタスクにおけるゼロショット性能を向上することを示す。
137Bパラメータを事前訓練した言語モデルと、自然言語の命令テンプレートを介して言語化された60以上のNLPタスクにチューニングする。
FLANと呼ばれるこの命令調整モデルについて、未知のタスクタイプで評価する。
論文 参考訳(メタデータ) (2021-09-03T17:55:52Z) - ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language
Understanding and Generation [25.430130072811075]
大規模知識強化モデルの事前学習のための統合フレームワーク ERNIE 3.0 を提案する。
自動回帰ネットワークと自動エンコードネットワークを融合することで、トレーニングされたモデルを自然言語理解と生成タスクの両方に容易に適合させることができる。
我々は,テキストと大規模知識グラフからなる4TBコーパス上で,100億のパラメータでモデルを訓練した。
論文 参考訳(メタデータ) (2021-07-05T16:54:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。