論文の概要: Scaling Language Models: Methods, Analysis & Insights from Training
Gopher
- arxiv url: http://arxiv.org/abs/2112.11446v1
- Date: Wed, 8 Dec 2021 19:41:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-26 13:21:22.836599
- Title: Scaling Language Models: Methods, Analysis & Insights from Training
Gopher
- Title(参考訳): 言語モデルのスケーリング: トレーニング用gopherからのメソッド、分析、洞察
- Authors: Jack W. Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan
Hoffmann, Francis Song, John Aslanides, Sarah Henderson, Roman Ring, Susannah
Young, Eliza Rutherford, Tom Hennigan, Jacob Menick, Albin Cassirer, Richard
Powell, George van den Driessche, Lisa Anne Hendricks, Maribeth Rauh, Po-Sen
Huang, Amelia Glaese, Johannes Welbl, Sumanth Dathathri, Saffron Huang,
Jonathan Uesato, John Mellor, Irina Higgins, Antonia Creswell, Nat McAleese,
Amy Wu, Erich Elsen, Siddhant Jayakumar, Elena Buchatskaya, David Budden,
Esme Sutherland, Karen Simonyan, Michela Paganini, Laurent Sifre, Lena
Martens, Xiang Lorraine Li, Adhiguna Kuncoro, Aida Nematzadeh, Elena
Gribovskaya, Domenic Donato, Angeliki Lazaridou, Arthur Mensch, Jean-Baptiste
Lespiau, Maria Tsimpoukelli, Nikolai Grigorev, Doug Fritz, Thibault Sottiaux,
Mantas Pajarskas, Toby Pohlen, Zhitao Gong, Daniel Toyama, Cyprien de Masson
d'Autume, Yujia Li, Tayfun Terzi, Vladimir Mikulik, Igor Babuschkin, Aidan
Clark, Diego de Las Casas, Aurelia Guy, Chris Jones, James Bradbury, Matthew
Johnson, Blake Hechtman, Laura Weidinger, Iason Gabriel, William Isaac, Ed
Lockhart, Simon Osindero, Laura Rimell, Chris Dyer, Oriol Vinyals, Kareem
Ayoub, Jeff Stanway, Lorrayne Bennett, Demis Hassabis, Koray Kavukcuoglu,
Geoffrey Irving
- Abstract要約: 本稿では,トランスフォーマーに基づく言語モデルの性能を,幅広いモデルスケールで解析する。
スケールからのゲインは、理解、事実確認、有害言語の同定などにおいて最大である。
我々は、AIの安全性と下流の害の軽減に対する言語モデルの適用について論じる。
- 参考スコア(独自算出の注目度): 83.98181046650664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language modelling provides a step towards intelligent communication systems
by harnessing large repositories of written human knowledge to better predict
and understand the world. In this paper, we present an analysis of
Transformer-based language model performance across a wide range of model
scales -- from models with tens of millions of parameters up to a 280 billion
parameter model called Gopher. These models are evaluated on 152 diverse tasks,
achieving state-of-the-art performance across the majority. Gains from scale
are largest in areas such as reading comprehension, fact-checking, and the
identification of toxic language, but logical and mathematical reasoning see
less benefit. We provide a holistic analysis of the training dataset and
model's behaviour, covering the intersection of model scale with bias and
toxicity. Finally we discuss the application of language models to AI safety
and the mitigation of downstream harms.
- Abstract(参考訳): 言語モデリングは、人間の知識の大規模なリポジトリを利用して、世界をよりよく予測し理解することで、インテリジェントなコミュニケーションシステムへのステップを提供する。
本稿では、数千万のパラメータを持つモデルから、Gopherと呼ばれる2800億のパラメータモデルまで、幅広いモデルスケールにわたるトランスフォーマーベースの言語モデル性能の分析を行う。
これらのモデルは152の多様なタスクで評価され、大多数で最先端のパフォーマンスを達成する。
スケールからの利益は理解、事実確認、有毒な言語の同定などの分野では最大だが、論理学や数学的推論の利点は少ない。
トレーニングデータセットとモデルの振る舞いを総合的に分析し,モデルスケールとバイアスと毒性の交点をカバーする。
最後に,ai安全性への言語モデルの応用と下流の被害軽減について論じる。
関連論文リスト
- Computational Models to Study Language Processing in the Human Brain: A Survey [47.81066391664416]
本稿では,脳研究における計算モデルの利用の取り組みを概観し,新たな傾向を浮き彫りにしている。
我々の分析によると、すべてのデータセットで他のモデルよりも優れているモデルはない。
論文 参考訳(メタデータ) (2024-03-20T08:01:22Z) - Split and Rephrase with Large Language Models [2.499907423888049]
Split and Rephrase (SPRP) タスクは、複雑な文を短い文法文の列に分割する。
タスク上の大きな言語モデルを評価し、主要なメトリクスに基づいて、技術の現状を大幅に改善できることを示します。
論文 参考訳(メタデータ) (2023-12-18T10:16:37Z) - Evaluating Large Language Models on Controlled Generation Tasks [92.64781370921486]
本稿では,異なる粒度を持つ文計画ベンチマークを含む,様々なベンチマークを広範囲に分析する。
大規模言語モデルと最先端の微調整された小型モデルを比較した後、大規模言語モデルが後方に落ちたり、比較されたり、より小型モデルの能力を超えたりしたスペクトルを示す。
論文 参考訳(メタデータ) (2023-10-23T03:48:24Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - Reimagining Retrieval Augmented Language Models for Answering Queries [23.373952699385427]
本稿では,大規模言語モデルに対する現実性チェックと,比較対象言語モデル検索の可能性を検証する。
このような言語モデルは半パラメトリックであり、モデルがモデルパラメータと外部データソースからの知識を統合して予測を行う。
論文 参考訳(メタデータ) (2023-06-01T18:08:51Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Analyzing Bagging Methods for Language Models [0.5161531917413708]
我々は,バッジ言語モデルの解析を行い,単一言語モデルと最終モデルサイズで大まかに等価なタグ付きアンサンブルを比較した。
我々のアンサンブル法は、少なくとも1つのLMベースラインとほぼ同等である。
論文 参考訳(メタデータ) (2022-07-19T06:30:37Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。